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Unix/Linux 作 坊 


Chapter 1 








Hardware Basic( 人 硬件 基础 知识 ) 























一 个 操作 系统 必须 和 作为 它 的 基础 的 硬件 系统 紧密 配合 。 操 作 系 统 需要 使 用 一 些 只 有 硬件 才能 
提供 的 功能 。 为 了 完整 的 了 解 Linux， 你 需要 了 解 底层 硬件 的 基础 知识 。 本 章 对 于 现代 PC 的 硬件 
进行 了 。 


1975 年 1 月 “Popular Electronics” 杂 志 封 面 上 印 出 了 Altair 8080 的 图 片 ， 一 场 革 命 开 始 了 











Altair 8080， 跟 随 早期 的 “Star Trek epsode” 命 名 ， 只 需要 $397， 就 可 由 个 人 电子 爱好 者 自己 
组 装 。 它 拥有 Intel 8080 处 理 器 和 256 字 节 内 存 ， 但 是 没有 屏幕 和 键盘 。 以 今天 的 标准 来 衡量 ， 
它 太 简陋 了 。 它 的 发 明 者 ，Ed Roberts, iil [is] “personal computer“ 来 命名 他 的 发 明 ， 但 
现在 ，PC 这 个 名 词 已 经 用 来 命名 几乎 所 有 你 可 以 不 依靠 帮助 就 可 以 自己 运行 起 来 的 计算 机 。 用 
这 个 定义 ， 甚 至 一 些 十 分 强大 的 Alpha AXP 系 统 也 是 PC。 


爱好 者 们 看 到 了 Altair 的 潜力 ， 开 始 为 它 写 软件 ， 制 造 硬 件 。 对 于 这 些 早 期 的 先驱 来 讲 ， 它 代表 
从 被 神职 人 员 控 制 和 运行 的 大 型 批 处 理 的 主机 系统 中 逃脱 出 来 的 自由 。 你 可 以 在 自己 
甚至 厨 桌 上 拥有 计算 机 ， 这 使 学 院 的 退学 生 为 此 着 迷 并 通宵 达旦 。 与 此 同时 出 现 大 量 硬 
ft 在 一 定 程度 上 各 自 不 同 ， 而 软件 专家 则 乐于 为 这 些 新 机 器 撰写 软件 。 有 讽刺 意味 的 
是 ，IBM 在 1981 年 发 布 了 IBM PC 并 于 1982 年 早期 供 贷 ， 从 此 定义 了 现代 PC 的 模型 。 它 拥有 Intel 
8088 处 理 器 ，64K 内 存 〈 可 以 扩充 到 256K) ， 两 个 软驱 和 一 个 80x25 的 彩色 图 卡 (CGA)， 用 今 
天 的 标准 衡量 ， 它 功能 不 算 很 强 ， 但 是 它 销售 的 不 错 。1983 年 ， 紧 接着 推出 的 IBM PC-XT， 则 
拥有 一 个 豪华 的 10M 硬 盘 。 不 久 大 批 公司 如 Compaq 开 始 制 造 IBM PC 的 复制 品 ，PC 的 结构 成 为 
了 事实 的 标准 。 a E dl 公司 可 以 在 这 个 不 断 增 长 的 市 场 上 一 起 竞争 ， 反 过 
来 ， 可 以 遇 制 价格 ， 让 用 户 满意 。 现 代 PC 承 袭 了 早期 PC 的 许多 系统 体系 特征 。 甚 至 基于 最 强大 
的 Intel Pentium necu NS 8086 的 寻 址 模式 。 当 Linus Torvalds 开 始 开发 后 来 的 
Linux 时 ， 他 选择 了 当时 最 常见 和 价格 最 合理 的 硬件 平台 : 一 人 台 Intel 80386 PC. 


从 PC 的 外 面 看 ， 最 明显 的 部 件 就 是 机 箱 、 键 盘 、 和 鼠标 和 显示 器 。 在 机 箱 的 前 面 有 一 些 按 钮 ， 
个 小 屏幕 显示 一 些 数 字 ， 还 有 一 个 软驱 。 现 在 的 大 多 数 系统 还 有 一 个 CD-ROM 期 、 驱 动 器 。 " 
SEDI 的 数据 ， 那 么 还 会 有 一 个 备份 用 的 磁带 机 。 这 些 设 备 一 律 被 看 作 外 设 。 


虽然 CPU 管 理 整 个 系统 ， 但 它 并 不 是 唯一 的 智能 设备 。 所 有 的 外 设 控制 器 ， 例 如 IDE 控 制 器 ， 也 
都 拥有 一 定 程度 的 智能 。 在 PC 内 部 〈 图 1.1) ， 你 可 以 看 到 一 个 主板 ， 包 括 CPU 或 微 处 理 器 、 内 
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存 和 一 些 ISA 或 PCI 外 设 控制 卡 的 槽 位 。 其 中 一 些 控制 器 ， 如 IDE 人 磁盘 控制 器 可 能 内 置 在 系统 主板 
Eg 


1. CPU 








CPU， 或 者 说 微 处 理 器 ， EA AE RD. TAE FR ai EAT AS, XE 
操作 并 从 内 存 中 读 取 指 令 并 执行 指令 ， 进 而 控制 数据 流向 。 计 算 机 发 展 的 早期 ， 微 
处 理 器 的 各 种 功能 模块 是 由 相互 分 A “GEERT EF PEK) 的 单元 构成 。 这 也 是 
名 词 “ 中 央 处 理 单元 ”的 起 源 。 LI RUM I BBG acie 模块 集中 在 一 块 非常 小 
的 硅 晶 片 制造 的 集成 电路 上 。 在 本 书 ， 名 词 CPU、 微 处 理 器 和 处 理 器 交 蔡 使 用 。 


微 处 理 器 处 理 二 进 制 数据 : 这 些 数据 由 1 和 0 组 成 。 这 些 1 和 0 对 应 电气 开关 的 开 或 
关 。 就 好 像 42 代 表 4 个 10 和 2 个 单元 ， 二 进 制 数字 由 一 系列 代表 2 的 寡 数 的 数字 组 
成 。 这 里 ， 过 数 意味 着 一 个 数字 用 自身 相 乘 的 次 数 。10 的 一 次 震 是 10，10 的 2 次 圭 
是 10x10，10 的 3 次 震 是 10x10x10， 依 此 类 推 。 二 进 制 0001 是 十 进 制 1， 二 进 制 数 
0010 是 十 进 制 2， 二 进 制 0011 是 十 进 制 3， 二 进 制 0100 是 十 进 制 4， 等 等 。 所 以 ， 
十 进 制 42 是 二 进 制 101010 或 者 〈2+8+32 或 21+234+25) 。 在 计算 机 程序 除了 使 用 二 
进 制 表示 数字 之 外 ， 另 一 种 基数 ，16 进 制 ， 也 经 常用 到 。 在 这 种 进 制 中 ， 每 一 位 数 
字 表 示 16 的 窜 数 。 因 为 十 进 制 数字 只 是 从 0 到 9， 在 十 六 进 制 中 10 到 15 分 别 用 字母 
A，B，C，D，E，F 表 示 。 例 如 ， 十 六 进 制 的 E 是 十 进 制 的 14， 而 十 六 进 制 的 2A 是 十 
进 制 的 42 (24164100 。 用 C 语 言 的 表示 法 〈 本 书 一 直 使 用 ) ， 十 六 进 制 数字 使 用 
前 级 “0x”: 十 六 进 制 的 2A 写 做 Ox2A。 
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Ligure 1.1: A typical PC motherboard. 
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处 理 器 的 执行 由 外 部 时 钟 控 制 。 这 个 时 钟 ， 即 系统 时 钟 ， 对 处 理 器 产生 稳定 的 时 钟 
脉冲 ， 在 每 一 个 时 钟 脉冲 里 ， 处 理 器 执行 一 些 工 作 。 例 如 ， 处 理 器 可 以 在 每 一 个 时 
钟 脉冲 里 执行 一 条 指令 。 处 理 器 的 速度 用 系统 时 钟 的 频率 来 描述 。 一 个 100Mhz 的 处 
理 器 每 秒 钟 接受 到 100，000，000 次 时 钟 脉冲 。 用 时 钟 频率 来 描述 CPU 的 能 力 是 一 
种 误解 ， 因 为 不 同 的 处 理 器 在 每 一 次 时 钟 脉冲 中 执行 的 工作 量 不 同 。 虽 然 如 此 ， 如 
果 所 有 的 条 件 同 等 ， 越 快 的 时 钟 频率 表示 处 理 器 的 能 力 越 强 。 处 理 器 执行 的 指令 非 
党 简单， 例如 : “把 内 存 位 置 X 的 内 容 读 到 寄存 器 Y 中 “。 寄 存 器 是 微 处 理 器 的 内 部 
存储 空间 ， 用 来 存储 数据 并 进行 操作 。 执 行 的 操作 可 能 使 处 理 器 停止 当前 操作 而 转 
去 执行 内 存 中 其 他 地 方 的 指令 。 正 是 这 些微 小 的 指令 集合 在 一 起 ， 赋 予 现 代 的 微 处 
理 器 几乎 无 限 的 能 力 ， 因 为 它 每 秒 可 以 执行 数 百 万 甚至 数 十 亿 的 指令 。 



























































执行 指令 时 必须 从 内 存 中 提取 指令 ， 指 令 目 身 也 可 能 引用 内 存 中 的 数据 ， 这 些 数据 
也 必须 提取 到 内 存 中 并 在 需要 的 时 候 保存 到 内 存 中 去 。 
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一 个 微 处 理 器 内 部 寄存 器 的 大 小 、 数 量 和 类 型 完全 决定 于 它 的 类 型 。 一 个 Intel 
80486 处 理 器 和 一 个 Alpha AXP 处 理 器 的 寄存 器 组 完全 不 同 。 另 外 ，Intel 是 32 位 宽 而 
Alpha AXP 是 64 位 宽 。 但 是 ， 一 般 来 讲 ， 所 有 特定 的 处 理 器 都 会 有 一 些 通用 目的 的 寄 
存 器 和 少量 专用 的 寄存 器 。 大 多 数 处 理 器 拥有 以 下 特殊 用 途 的 专用 的 寄存 器 : 



























































Program Counter (PC) 程序 计数 器 


这 个 寄存 器 记录 了 下 一 条 要 执行 的 指令 的 地 址 。PC 的 内 容 在 每 次 取 指 令 的 时 候 自 动 
增加 。 








Stack Pointer (SP) 堆栈 指针 


处 理 器 必须 能 够 存 取 用 于 临时 存储 数据 的 大 容量 的 外 部 读 写 随机 存 取 内 存 
CRAM) 。 堆 栈 是 一 种 用 于 在 外 部 内 存 中 存放 和 恢复 临时 数据 的 方法 。 通 常 ， 处 理 
器 提供 了 特殊 的 指令 用 于 将 数据 压 在 堆栈 中 ， 并 在 以 后 需要 是 取出 来 。 堆 栈 使 用 
LIFO 后进 先 出 〉 的 方式 。 换 句 话 说 ， 如 果 你 压 入 两 个 值 x 和 y 到 堆栈 中 ， 然 后 从 堆 
栈 中 弹出 一 个 值 ， 那 么 你 会 得 到 y 的 值 。 


一 些 处 理 器 的 堆栈 向 内 存 顶 部 增长 ， 而 另 一 些 向 内 存 的 底部 增长 。 还 有 一 些 处 理 器 
两 种 方式 都 可 以 文 持 ， 例 如 : ARM. 







































































Processor Status (PS) 


旧 令 可 能 产生 结果 。 例 如 : “X 寄 存 器 的 内 容 是 否 大 于 Y 寄 存 器 的 内 容 ? “可 能 产生 
真 或 假 的 结果 。PS 寄 存 器 保留 这 些 结果 以 及 处 理 器 当前 状态 的 其 他 信息 。 多 数 处 理 
器 至 少 有 两 种 模式 ，kernel (核心 态 ) 和 user (用 户 态 ) ，PS 寄 存 器 会 纪录 能 够 确定 
当前 模式 的 那些 信息 。 




















2. Memory( 
内 存 ) 








所 有 系统 都 具有 分 级 的 内 存 结构 ， 由 位 于 不 同 级 别 的 速度 和 容量 不 同 的 内 存 组 成 。 


最 快 的 内 存 是 高 速 缓存 存储 器 ， 就 象 它 的 名 字 蜡 示 的 一 样 -用 于 临时 存放 或 缓存 主 内 
存 的 内 容 。 这 种 内 存 非 常 快 但 是 比较 昂贵， 因此 多 数 处 理 器 芯片 上 内 置 有 少量 的 高 
速 缓冲 存储 器 ， 而 大 多 数 高 速 缓存 存储 器 放 在 系统 主板 上 。 一 些 处 理 器 用 一 块 缓存 
内 存 同时 绥 存 指令 和 数据 ， 而 另 一 些 处 理 器 有 两 块 缓存 内 存 - 一 个 用 于 指令 ， 另 一 个 
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用 于 数据 。Alpha AXP 处 理 器 有 两 个 内 置 的 内 存 高 速 缓存 存储 器 : 一 个 用 于 数据 D- 
Cache) ， 另 一 个 用 于 指令 (-Cache) 。 它 的 外 部 高 速 缓冲 存储 器 (或 B-Cache) 将 
两 者 混在 一 起 。 


最 后 一 种 内 存 是 主 内 存 。 相 对 于 外 部 高 速 缓存 存储 器 而 言 速度 非常 慢 ， 对 于 CPU 内 
置 的 高 速 缓存 存储 器 ， 主 内 存 简 直 是 在 爬 。 


高 速 缓存 存储 器 和 主 内 存 必 须 保 持 同 步 〈 一 致 ) 。 换 句 话说， 如果 主 内 存 中 的 一 个 
字 保 存在 高 速 缓存 存储 需 的 一 个 或 多 个 位 置 ， 那 么 系统 必须 保证 高 速 缓存 存储 器 和 
主 内 存 的 内 容 一 样 。 使 高 速 缓冲 存储 器 同步 的 工作 一 部 分 是 由 硬件 完成 ， 忆 一 部 分 
则 是 由 操作 系统 完成 的 。 对 于 其 它 坚 系统 的 主要 任务 ， 便 件 和 软件 也 必须 紧密 配 












































3. Buses 
(总 线 ) 


系统 板 的 各 个 组 成 部 分 由 被 称 为 总 线 的 连接 系统 互 连 在 一 起 。 系 统 总 线 分 为 三 种 逻 
辑 功能 : 地 址 总 线 、 数 据 总 线 和 控制 总 线 。 地 址 总 线 指 定 了 数据 传输 的 内 存 位 
《地 址 ) ， 数 据 总 线 保存 了 传输 的 数据 。 数 据 总 线 是 双 同 的 ， 它 允许 CPU 读 取 ， 也 
允许 CPU 写 。 控 制 总线 包 含 了 各 种 信和 号 线 用 于 在 系统 中 发 送 时 钟 和 控制 信号 。 有 许 
多 种 不 同 的 总 线 类 型 ，ISA 和 PCI 总 线 是 系统 用 于 连接 外 设 的 常用 方式 。 
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4. Controllers and Peripherals 


Carb a AP D 


外 设 指 实在 的 设备 ， 如 由 系统 板 或 系统 板 插 卡 上 的 控制 芯片 所 控制 的 图 形 卡 或 磁 
盘 。IDE 控 制 芯片 控制 IDE 和 磁盘， 而 SCSI 控 制 世 片 控制 SCSI 磁 盘 。 这 些 控 制 器 通过 不 
同 的 总 线 连接 到 CPU 并 相互 连接 。 现 在 制造 的 大 多 数 系统 都 是 用 PCI 或 1SA 总 线 将 系 
统 的 主要 部 件 连 接 在 一 起 。 控 制 器 本身 也 是 象 CPU 一 样 的 处 理 器 ， 它 们 可 以 看 作 
CPU 的 智能 助手 ，CPU 拥 有 系统 的 最 高 控制 权 。 












































所 有 的 控制 器 都 是 不 同 的 ， 但 是 通常 它们 都 有 用 于 控制 它们 的 寄存 器 。CPU 上 运行 
的 软件 必须 能 够 读 写 这 些 控制 寄存 器 。 一 个 寄存 器 可 能 包含 描述 错误 的 状态 码 ， 马 
一 个 寄存 器 可 能 用 于 控制 用 途 ， 改 变 控 制 占 的 模式 。 一 个 总 线 上 的 每 一 个 控制 器 都 
可 以 分 别 被 CPU 寻 址 ， 这 样 软件 设备 驱动 程序 就 可 以 读 写 它 的 寄存 器 进而 控制 它 。 
IDE 电 绕 是 一 个 好 例子 ， 它 给 了 你 分 别 存 取 总 线 上 每 一 个 驱动 右 的 能 力 。 男 一 个 好 例 
子 是 PCI 总 线 ， 允 许 每 一 个 设备 (如 图 形 卡 ) 被 独立 存 取 。 
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5. Address Spaces 


〈 寻 址 空间 ) 


连接 CPU 和 主 内 存 的 系统 总 线 以 及 连接 CPU 和 系统 硬件 外 设 的 总 线 是 分 离 的 。 硬 件 











外 设 所 拥有 的 内 存 空间 称 为 /0 空间 。1/0 空 间 本 身 可 以 再 进一步 划分 ， 但 是 我 们 现 
在 先 不 讨论 。CPU 可 以 访问 系统 内 存 空间 和 Il/O 空 间 ， 而 控制 器 只 能 通过 CPU 间接 访 
问 系统 内 存 。 从 设备 的 角度 来 看 ， 比 如 软驱 控制 器 ， 它 只 能 看 到 它 的 控制 寄存 器 所 


在 的 地 址 空间 
间 。 例 如 ， 可 外 



































CISA) ， 而 非 系统 内 存 。 一 个 CPU 用 不 同 的 指令 去 访问 内 存 和 Il/O 空 
E 有 一 条 指令 是 “从 I/0 地 址 0x3f0 读 取 一 个 字 节 到 X 寄 存 器 “。 这 也 是 








eee UR x 间 的 寄存 器 从 而 控制 外 设 的 方法 。 在 地 址 
空间 中 ， 普 通 外 设 〈 如 IDE 控 制 器 ， 吓 行 端口 ， 软 怠 控 制 器 等 等 ) 的 寄存 器 在 PC 外 
设 的 多 年 发 展 中 已 经 成 了 定 例 。 1/0 空 间 的 地 址 0x3f0O 正 是 串 行 口 (COM1) 的 控制 寄 





存 器 的 地 址 。 























有 时 控制 器 需要 直接 从 系统 内 存 读 取 大 量 内 存 ， 或 直接 写 大 量 数据 到 系统 内 存 中 
去 。 比 如 将 用 户 数 据 写 到 硬盘 上 去 。 在 这 种 情况 下 ， 使 用 直接 内 存 存 取 DMA) $2 
制 器 ， 人 允许 硬件 设备 直接 存 取 系 统 内 存 ， 当 然 ， 这 种 存 取 必 须 在 CPU 的 严格 控制 和 














监管 下 进行 。 


6. Timer( 
时 钟 ) 






































所 有 操作 系统 需要 知道 时 间 ， 现 代 PC 包 括 一 个 特殊 的 外 设 ， 叫 做 实时 时 钟 (RTC〉。 它 提供 了 
两 样 东 西 : 可 靠 的 日 期 和 精确 的 时 间 间 隔 。RTC 有 自己 的 电池 ， 所 以 即使 PC 没有 加 电 ， 它 仍 在 
运行 。 这 也 是 为 什么 PC 总 是 “知道 ”正确 的 日 期 和 时 间 。 时 间 间 隔 计时 允许 操作 系统 精确 地 调 











度 基本 工作 。 


Chapter 2 





Software Basic( 软 件 基 础 ) 





程序 是 用 于 执行 特定 任务 的 计算 机 指令 组 合 。 程 序 可 以 用 汇编 语言 ， 一 种 非常 低级 的 计算 机 语 










































































FK 也 可 以 使 用 和 机 器 无 关 的 高 级 语言 ， 比 如 C 语 言 编写 。 操 作 系 统 是 一 个 特殊 的 程序 ， 
























































允许 用 户 通 过 它 运 行 应 用 程 





序 ， 比 如 电子 表 和 文字 处 理 等 等 。 本 章 介绍 了 基本 的 编程 原理 ， 并 
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简介 操作 系统 的 目的 和 功能 








2.1 Computer Languages( 计 算 机 语言 ) 





2.1.1. 汇 编 


a 
hill 




















CPU 从 内 存 中 读 取 和 执行 的 指令 对 于 人 类 来 讲 无 法 理解 。 它 们 是 机 器 代码 ， 精 确 的 告诉 计算 机 
要 做 什么 。 比 如 十 六 进 制 数 0x89E5， 是 Intel 80486 的 指令 ， 将 寄存 器 ESP 的 内 容 拷 贝 到 寄存 器 
EBP 中 。 早 期 计算 机 中 最 初 的 软件 工具 之 一 是 汇编 程序 ， 它 读 入 人 类 可 以 阅读 的 源 文件 ， 将 其 
装配 成 机 器 代码 。 汇 编 语言 明确 地 处 理 对 寄存 器 和 对 数据 的 操作 ， 而 这 种 操作 对 于 特定 的 微 处 
理 器 而 言 是 特殊 的 。lntel X86 微 处 理 器 的 汇编 语言 和 Alpha AXP 微 处 理 器 的 汇编 语言 完全 不 同 。 
以 下 Alpha AXP 汇 编 代码 演示 了 程序 可 以 执行 的 操作 类 型 ; 































































































Ldr r16, (r15) ; 第 一 行 
Ldr r17, 4(r15) ; 第 二 行 
Beq r16,r17,100; 第 三 行 
Str r17, (r15); 第 四 行 


100: ; 第 五 行 


第 一 条 语句 (第 一 行 ) 将 寄存 器 15 指 定 的 地 址 中 的 内 容 加 载 到 寄存 器 16 中 。 第 二 条 指令 将 紧 接 
am n 第 三 行 比较 寄存 器 16 和 寄存 器 17， 如 果 相 等 ， 分 支 到 标 
45100, F, quu I UE DU d die 如 果 内 存 中 的 数据 相同 ， 就 

























































































不 必 存 储 数据 。 eee 要 技巧 而 且 十 分 匈 长， 容易 出 错 。Linux 系 统 的 核心 很 少 的 
一 部 分 是 用 汇编 语言 编写 ， 而 这 些 部 分 | 
微 处 理 器 相关 。 








2.1.2 The C Programming Language and Compiler (C 语 言 和 编译 器 ) 



































使 用 汇编 语言 编写 大 型 程序 十 分 困难 ， 消 耗 时 间 ， 容 易 出 错 而 且 生 成 的 程序 不 能 移植 ， 只 能 束 
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缚 在 特定 的 处 理 器 家 族 。 更 好 的 选择 是 使 用 和 机 器 无 关 的 语言 ， 例 如 C。C 允 许 你 用 逻辑 算法 描 
述 程序 和 要 处 理 的 数据 。 被 称 为 编译 程序 〈compiler) 的 特殊 程序 读 入 C 程 序 ， 并 将 它 转换 为 汇 
编 语 言 ， 进 而 产生 机 器 相关 的 代码 。 好 的 编译 器 生成 的 汇编 指令 可 以 和 好 的 汇编 程序 员 编 写 的 
程序 效率 接近 。 大 部 分 Linux 核 心 是 用 C 语 言 编 写 的 。 以 下 的 C 片 断 : 









































































































































if (x != y) 
x=y; 


执行 了 和 前 面 示例 中 汇编 代码 完全 一 样 的 操作 。 如 果 变 量 x 的 内 容 和 变量 y 的 内 容 不 一 样 ， 变 量 y 
的 内 容 被 拷贝 到 变量 x。C 代 码 用 例 程 Croutine) 进行 组 合 ， 每 一 个 例 程 执行 一 项 任务 。 例 程 可 
以 返回 C 所 支持 的 任意 的 数值 或 数据 类 型 。 大 型 程序 比如 Linux 核 心 分 别 由 许多 的 C 语 言 模块 组 
成 ， 每 一 个 模块 有 自己 的 例 程 和 数据 结构 。 这 些 C 源 代码 模块 共同 构成 了 逻辑 功能 比如 文件 系统 
的 处 理 代码 。 










































































C 文 持 多 种 类 型 的 变量 。 一 个 变量 是 内 存 中 的 特定 位 置 ， 可 用 符号 名 引用 。 上 述 的 C 片 断 中 ，x 和 
y 引 用 了 内 存 中 的 位 置 。 程 序 员 不 需要 关心 变量 在 内 存 中 的 具体 位 置 ， 这 是 连接 程序 〈 下 述 ) 必 
须 处 理 的。 一 些 变 量 包含 不 同 的 数据 例如 整数 、 浮 点 数 等 和 为 一 些 则 包含 指针 。 























旧 针 是 包含 其 它 数据 在 内 存 中 的 地 址 的 变量 。 假 设 一 个 变量 x， 位 于 内 存 地 址 O0x80010000， 你 
可 能 有 一 个 指针 px， 指 向 x。 Px 可 能 位 于 地 址 0x80010030。Px 的 值 则 是 变量 x 的 地 
hk, Ox80010000. 





C 人 允许 你 将 相关 的 变量 集合 成 为 结构 。 例 如 : 





Struct { 

Int I; 

Char b; 

} my_struct; 


是 一 个 叫做 my_struct 的 数据 结构 ， 包 括 两 个 元 素 : 一 个 整数 (32072) 1 和 一 个 字符 〈8 位 数 
据 ) b。 





2.1.3 Linkers (连接 程序 ) 
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连接 程序 将 儿 个 目标 模块 和 库 文件 连接 在 一 起 成 为 一 个 单独 的 完整 程序 。 目 标 模块 是 汇编 程序 
或 编译 程序 的 机 器 码 输出 ， E CMS DUO TO. 数据 和 供 连 接 程序 使 用 的 连接 信息 。 比 如 : 一 个 目 
标 模 块 可 能 包括 程序 的 所 有 数据 库 功 能 ， 而 另 一 个 目标 模块 则 包括 处 理 命令 令 行 参数 的 函数 。 连 
接 程序 确定 目标 模块 之 间 的 引用 关系 ， 即 确定 一 个 模块 所 引 用 的 例 程 和 数据 在 另 一 个 模 世 中 的 
实际 位 置 。Linux 核 心 是 由 多 个 目标 模块 连接 而 成 的 独立 的 大 程序 。 
















































































2.2 What is an Operating System (什么 是 操作 系统 ?) 




















没有 软件 ， 计 算 机 只 是 一 堆 发 热 的 电子 元 件 。 如 果 说 硬件 是 计算 机 的 心脏 ， 则 软件 就 是 它 的 灵 
魂 。 操 作 系 统 是 允许 用 户 运 行 应 用 程序 的 一 组 系统 程序 。 操 作 系 统 将 系统 的 硬件 抽象 ， 呈 现在 
re 用 程序 之 前 的 是 一 个 虚拟 的 机 器 。 是 软件 造就 了 计算 机 系统 的 特点 。 大 多 数 PC 可 以 运 

一 到 多 个 操作 系统 ， 而 每 一 个 操作 系统 从 外 观 和 感觉 上 都 大 不 相同 。Linux 由 不 同 功 能 的 部 分 
m 这 些 部 分 总 体 组 合 构成 了 Linux 操 作 系统 。Linux 最 明显 的 部 分 就 是 Kernel 自 身 ， 但 是 如 果 
没有 shell 或 libraries 一 样 没 有 用 处 。 



















































































为 了 了 解 什么 是 操作 系统 ， 看 一 看 在 你 输入 最 简单 的 命令 时 发 生 了 什么 : 


$ls 

Mail c images perl 
Docs tcl 

$ 


这 里 的 $ 是 登录 的 shell 输 出 的 提示 符 〈 此 例 是 bash) : 表示 shell 在 等 候 你 (用 户 ) 输入 命令 。 输 
入 Is 引发 键盘 驱动 程序 识别 输入 的 字符 ， 键 盘 驱 动 程序 将 识别 的 字符 传递 给 shell 去 处 理 。shell 
先 查 找 同名 的 可 执行 映 象 ， 它 找到 了 /bin/ls, 然后 调用 核心 服务 将 ls 执行 程序 加 载 到 虚拟 内 存 中 
并 开始 执行 。1s 执 行程 序 通过 执行 核心 的 文件 子 系统 的 系统 调用 碍 找 文件 。 文 件 系统 可 能 使 用 
缓存 的 文件 系统 信息 或 通过 磁盘 设备 驱动 程序 从 磁盘 上 读 取 文 件 信 息 , 也 可 能 是 通过 网 络 设备 驱 
动 程序 同 远程 主机 交换 信息 而 读 取 本 系统 所 访问 的 远程 文件 的 详细 信息 (文件 系统 可 以 通过 
NFS 网 络 文件 系统 远程 安装 ) 。 不 管 文件 信息 是 如 何 得 到 的 ，ls 都 将 信息 输出 ， 通 过 显示 驱动 程 
序 显示 在 屏幕 上 。 















































































































































以 上 的 过 程 看 起 来 相当 复杂 ， 但 是 它 说 明了 即使 是 最 简单 的 命令 也 是 操作 系统 各 个 功能 模块 之 
间 共 同 协作 的 结果 ， 只 有 这 样 才能 提供 给 你 用户 ) 一 个 完整 的 系统 视图 。 
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2.2.1 Memory management (内 存 管理 ) 


如 果 拥 有 无 限 的 资源 ， 例 如 内 存 ， 那 么 操作 系统 所 必须 做 的 很 多 





















































用 了 男 一 项 技术 : 多 进程 。 





2.2.2 Processes (进程 


一 





情 可 能 都 是 多 余 的 。 所 有 操 
作 系 统 的 一 个 基本 技巧 就 是 让 少量 的 物理 内 存 工作 起 来 好 像 有 相当 多 的 内 存 。 这 种 表面 看 起 来 
































的 大 内 存 叫 做 虚拟 内 存 ， 就 是 当 软 件 运 行 的 时 候 让 它 相 信 它 拥有 很 多 内 存 。 系 统 将 内 存 分 为 容 
易 处 理 的 页 ， 在 系统 运行 时 将 这 些 页 交换 到 硬盘 上 。 而 应 用 软件 并 不 知道 ， 因 为 操作 系统 还 使 


进程 可 以 看 作 一 个 在 执行 的 程序 ， 每 一 个 进程 都 是 正在 运行 的 特定 的 程序 的 独立 实体 。 如 果 你 
观察 一 下 你 的 Linux 系 统 ， 你 会 发 现 有 很 多 进程 在 运行 。 例 如 : 在 我 的 系统 上 输入 ps 显示 了 以 下 








进程 : 

$ ps 

PID TTY STAT TIME COMMAND 

158 pRe 1 0:00 -bash 

174 pRe 1 0:00 sh /usr/X11R6/bin/startx 

175 pRe 1 0:00 xinit /usr/X11R6/lib/X11 /xinit/xinitrc -- 
178 pRe 1. N 0:00 bowman 

182 pRe 1 N 0:01 rxvt - geometry 120x35 -fg white -bg black 
184 pRe 1 < 0:00 xclock -bg grey -geometry - 1500-1500 -padding O 
185 pRe 1 < 0:00 xload -bg grey -geometry -O-O -label xload 
187 pp6 1 9:26 /bin/bash 

202 pRe 1 N 0:00 rxvt -geometry 120x35 -fg white -bg black 
203 ppc 2 0:00 /bin/bash 


1796 pRe 1 N 0:00 rxvt -geometry 120x35 -fg white -bg black 
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1797 vO6 1 0:00 /bin/bash 
3056 pp6 3 « 0:02 emacs intro/introduction.tex 
3270 pp6 3 0:00 ps 


$ 





如 果 我 的 系统 拥有 多 个 CPU 那么 每 个 进程 可 能 《至 少 在 理论 上 如 此 ) 都 在 不 同 的 CPU 上 运行 
PEKE RA 个 ， 所 以 操作 系统 又 使 用 技巧 在 短 时 间 内 依次 运行 每 一 个 进程 。 这 个 时 间 
段 叫 做 时 间 片 。 这 种 技巧 叫做 多 进程 或 调度 ， 它 欺骗 了 每 一 个 进程 ， 好 像 它们 是 唯一 的 进程 。 
进程 相互 之 间 受 到 保护 ， 所 以 如 果 一 个 进程 崩溃 或 不 能 工作 ， 不 会 影响 其 他 进程 。 操 作 系统 通 
过 给 每 一 个 进程 一 个 独立 的 地 址 空间 来 实现 保护 ， 进 程 上 只 能 访问 它 自 己 的 地 址 空间 。 






































2.2.3 Device Drivers (设备 驱动 程序 ) 








设备 驱动 程序 组 成 了 Linux 核 心 的 主要 部 分 。 象 操 作 系 统 的 其 他 部 分 一 样 ， 它 们 在 一 个 高 优先 级 
的 环境 下 工作 ， 如 果 发 生 错 误 ， 可 能 会 引发 严重 问题 。 设 备 驱 动 程序 控制 了 操作 系统 和 它 控制 
的 硬件 设备 之 间 的 交互 。 比如 : 文件 系统 向 IDE 磁 盘 写 数据 块 是 使 用 通用 块 设备 接口 。 驱 动 程序 
控制 细节 ， 并 处 理 和 设备 相关 的 部 分 。 设 备 驱 动 程序 和 它 驱 动 的 具体 的 控制 器 芯片 相关 ， 所 
以 ， 如 果 你 的 系统 有 一 个 NCR810 的 SCSI 控 制 器 ， 那么 你 需要 NCR810 的 驱动 程序 。 















































2.2.4 The Filesystems 〈 文 件 系统 ) 




















象 Unix 一 样 ， 在 Linux 里 ， 系 统 对 独立 的 文件 系统 不 是 用 设备 标示 符 来 存 取 〈 比 如 驱动 器 编号 或 
驱动 器 名 称 ) ， 而 是 连接 成 为 一 个 树 型 结构 。Linux 在 安装 新 的 文件 系统 时 ， 把 它 安装 到 指定 的 
安装 目录 ， 比 如 /mnt/cdrom， 从 而 合并 到 这 个 单一 的 文件 系统 树 上 。Linux 的 一 个 重要 特征 是 它 
支持 多 种 不 同 的 文件 系统 。 这 使 它 非常 灵活 而 且 可 以 和 其 他 操作 系统 良好 共存 。Linux 最 常用 的 
文件 系统 是 EXT2， 大 多 数 Linux 发 布 版 都 支持 。 


































































































文件 系统 将 存放 在 系统 人 硬盘 上 的 文件 和 目录 用 可 以 理解 的 统一 的 形式 提供 给 用 户 ， 让 用 户 不 必 

考虑 文件 系统 的 类 型 或 底层 物理 设备 的 特性 。Linux 透 明 的 支持 多 种 文件 系统 (如 MS-DOS 和 

EXT2) ， 将 所 有 安装 的 文件 和 文件 系统 集合 成 为 一 个 虚拟 的 文件 系统 。 所 以 ， 用 户 和 进程 通常 
要 确切 知道 所 使 用 的 文件 所 在 的 文件 系统 的 类 型 ， 用 就 是 了 。 
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块 设备 驱动 程序 掩盖 了 物理 块 设备 类 型 的 区 别 〈 如 IDE 和 SCSI) 。 对 于 文件 系统 来 讲 ， 物 理 设备 
就 是 线性 的 数据 块 的 集合 。 不 同 设备 的 块 大 小 可 能 不 同 ， 如 软驱 一 般 是 512 字 节 ， 而 IDE 设 备 通 
常 是 1024 字 节 ， 同 样 ， 对 于 系统 的 用 户 ， 这 些 区 别 又 被 掩盖 。EXT2 文 件 系 统 不 管 它 用 什么 设 
备 ， 看 起 来 都 是 一 样 的 。 



































2.3 Kernet Data Structures (核心 数据 结构 ) 


操作 系统 必须 纪录 关于 系统 当前 状态 的 许多 信息 。 如 果 系 统 中 发 生 了 事情 ， 这 些 数据 结构 就 必 
须 相 应 改变 以 反映 当前 的 实际 情况 。 例 如 : 用 户 登 录 到 系统 中 的 时 候 ， 需 要 创建 一 个 新 的 进 
0 0 3 R 0 
和 干 一起。 























这 样 的 数据 结构 多 数 在 物理 内 存 中 ， 而 且 只 能 由 核心 和 它 的 子 系统 访问 。 数 据 结构 包括 数据 和 
站 针 《其 他 数据 结构 或 例 程 的 地 址 ) 。 乍 一 看 ，Linux 核 心 所 用 的 数据 结构 可 能 非常 混乱 。 其 
实 ， 每 一 个 数据 结构 都 有 其 目的 ， 虽 然 有 些 数 据 结构 在 多 个 的 子 系统 中 都 会 用 到 ， 但 是 实际 上 
它们 比 第 一 次 看 到 时 的 感觉 要 简单 的 多 。 


























理解 Linux 核 心 的 关键 在 于 理解 它 的 数据 结构 和 核心 处 理 这 些 数据 结构 所 用 到 的 大 量 的 函数 。 本 
书 以 数据 结构 为 基础 描述 Linux 核 心 。 论 及 每 一 个 核心 子 系统 的 算法 ， 处 理 的 方式 和 它们 对 核心 
数据 结构 的 使 用 。 























2.3.1 Linked Lists (连接 表 ) 





























Linux 使 用 一 种 软件 工程 技术 将 它 的 数据 结构 连接 在 一 起 。 多 数 情况 下 它 使 用 链表 数据 结构 。 如 
果 每 一 个 数据 结构 描述 一 个 物体 或 者 发 生 的 事件 的 单一 的 实例 ， 比 如 一 个 进程 或 一 个 网 络 设 
备 ， 核 心 必须 能 够 找 出 所 有 的 实例 。 在 链表 中 ， 根 指针 包括 第 一 个 数据 结构 或 单元 的 地 址 ， 列 
表 中 的 每 一 个 数据 结构 包含 指向 列表 下 一 个 元 素 的 指针 。 最 后 元 素 的 下 一 个 指针 可 能 使 0 或 
NULL， 表 示 这 是 列表 的 结尾 。 在 双 问 链表 结构 中 ， 每 一 个 元 素 不 仪 包括 列表 中 下 一 个 元 素 的 指 
针 ， 还 包括 列表 中 前 一 个 元 素 的 指针 。 使 用 双向 链表 可 以 比较 容易 的 在 列表 中 间 增 加 或 删除 元 
素 ， 但 是 这 需要 更 多 的 内 存 存 取 。 这 是 典型 的 操作 系统 的 两 难 情 况 ; 内 存 存 取 数 还 是 CPU 的 周 
期 数 。 
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2.3.2 Hash 


链接 表 是 常 
能 必须 查找 





指针 的 数组 或 者 说 向 量 表 。 数 组 或 向 量 
索引 来 访问 ， 索 引 是 数组 中 的 侦 移 量 。 
位 置 来 描述 每 一 本 





组 。 数 组 月 


Hash table 是 一 个 指向 数据 结构 的 指针 的 数组 ， 它 的 索引 来 源 于 数据 结构 中 的 信 
用 年 龄 作为 索引 。 要 找 出 一 个 指定 的 人 的 数据 ， 你 
他 的 年 龄 作为 索引 在 人 口 散 列表 中 查找 ， 通 过 指针 找到 包括 详细 信息 的 数据 结构 。 不 幸 


个 数据 结构 
可 以 月 





Fa 


Tables 























完整 个 


表 才 能 找到 。Linux 使 
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用 的 数据 结构 ， 但 是 游历 链接 表 的 效率 可 能 并 不 高 。 如 果 你 要 寻找 指定 的 元 素 ， 可 
用 另 一 种 技术 : Hashing 来 解决 这 种 局 限 。Hash table 是 








表 是 在 


PAR n] EA SUAE FC 





内 存 中 依次 存放 的 对 象 。; 

















B. 





B: LK aS ASS 

















来 描述 一 个 村 庄 的 人 口 ， 你 可 以 














用 在 书架 上 的 





再 来 看 书架 的 例子 ， 你 可 以 使 

















县 。 如 果 你 用 一 











的 是 ， 一 个 村 庄 中 可 能 很 多 人 年 龄 相同 ， 所 以 散 列表 的 指针 指向 男 一 个 链表 数据 结构 ， 每 一 个 
元 素描 述 同 龄 人 。 即 使 这 样 ， 碍 找 这 些 较 小 的 链表 仍然 比 碍 找 所 有 的 数据 结构 要 快 。 








Hash table 可 


要 快速 存 取 
核心 经 常 访 




















用 于 加 速 常 
的 信息 ， 是 全 部 可 月 
问 这 些 结构 。 使 

















信息 的 一 个 子 自 
用 缓冲 区 也 有 副 作 上 月 























用 的 数据 结构 的 访问 ， 在 Linux 


昌 ， 因 为 使 月 




















常用 hash talek KMA. AmE 
。 数 据 结 构 被 放 在 缓冲 区 并 保留 在 那里 ， 因 为 
起 来 比 简 单 链 表 或 者 散 列表 更 加 复 














杂 。 如 有 果 数 据 结构 可 以 在 绥 冲 区 找到 (这 叫做 绥 冲 命中 ) ， 那 么 一 切 很 完美 。 但 是 如 果 数 据 结 


构 不 在 缓冲 














区 中 ， 那 么 必须 查找 所 








用 的 相关 的 数据 结构 ， 如 果 找 到 ， 那 么 就 加 到 缓冲 区 中 。 增 








加 新 的 数据 结构 到 缓冲 区 中 可 能 需要 废弃 一 个 旧 的 缓冲 入 口 。Linux 必 须 决定 废弃 那 一 个 数据 结 
构 ， 风 险 在 于 废弃 的 可 能 使 Linux 下 一 个 要 访问 的 数据 结构 。 


2.3.3 Abstr 


act Interfaces (抽象 接口 ) 





Linux 核 心经 常 将 它 的 接口 抽象 化 。 接 口 是 以 特定 方式 工作 的 一 系列 例 程 和 数据 结构 。 比 如 : 所 


有 的 网 络 设备 驱动 程序 都 必须 提供 特定 的 例 程 来 处 理 特 定 的 数据 结构 。 










































































用 通用 的 代码 层 来 使 用 底层 特殊 代码 提供 的 服务 

符合 标准 接口 的 同 设备 相关 的 代码 提供 支持 。 

通常 这 些 底层 在 局 动 时 间 高 一 层 登 

现 。 例 如 ， 每 一 个 连结 到 核心 的 文 伯 

件 系 统 第 一 次 使 用 时 向 核心 登记 ) 。 你 可 以 查看 文 从 

行 了 登记 。 登 记 所 

址 。 再 一 次 用 文件 系统 登记 的 例子 ， 每 一 个 文人 

一 个 和 具体 文件 系统 相关 的 例 程 地 址 ， 在 安装 文 但 
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记 。 这 个 登记 过 程 常 通过 在 链接 表 中 增 力 
系统 在 核心 启动 时 进行 登记 《或 者 如 果 你 使 有 


用 的 数据 结构 通常 包括 指向 函数 的 指针 。 这 是 执行 特定 任务 的 软 作 











用 抽象 接口 的 方式 可 以 
HAY, mr HU 

















(接口 ) 。 例 如 网 络 层 是 通 月 





一 个 数据 结构 来 实 
HERR, TEX 
FE/proc/filesystems 来 检查 那些 文件 系统 进 
FF 函数 的 地 























系统 登记 时 传递 给 Linux 核 心 的 数据 结构 都 包括 


























FE 系统 时 必须 调用 。 
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Chapter 3 


Memory Management (内 存 管理 ) 





内 存 管理 子 系统 是 操作 系统 的 重要 部 分 。 从 计算 机 发 展 早期 开始 ， 就 存在 对 于 大 于 系统 中 物理 
能 力 的 内 存 需 要 。 为 了 克服 这 种 限制 ， 开 发 了 许多 种 策略 ， 其 中 最 成 功 的 就 是 虚拟 内 存 。 虚 拟 
内 存 通 过 在 竞争 进程 之 间 共 至 内 存 的 方式 使 系统 显得 拥有 比 实际 更 多 的 内 存 。 


虚拟 内 存 不 仅仅 让 你 的 计算 机 内 存 显得 更 多 ， 内 存 管理 子 系统 还 提供 : 






































Large Address Spaces“《〈 巨 大 的 地 址 空间 ) 操作 系统 使 系统 显得 拥有 比 实际 更 大 量 的 内 存 。 虚 拟 
内 存 可 以 比 系统 中 的 物理 内 存 大 许多 倍 。 


Protection (保护) 系统 中 的 每 一 个 进程 都 有 自己 的 虚拟 地 址 空间 。 这 些 虚 拟 的 地 址 空间 是 相互 
完全 分 离 的 ， 所 以 运行 一 个 应 用 程序 的 进程 不 会 影响 男 外 的 进程 。 男 外 ， 硬 件 的 虚拟 内 存 机 制 
允许 对 内 存 区 写 保护 。 这 可 以 防止 代码 和 数据 被 恶意 的 程序 窗 盖 。 


Memory Mapping《 内 存 映射 ) 内 存 映射 用 来 将 映像 和 数据 映射 到 进程 的 地 址 空间 。 用 内 存 映 
射 ， 文 件 的 内 容 被 直接 连结 到 进程 的 虚拟 地 址 空间 。 


Fair Physics Memory Allocation 〈 公 平分 配 物理 内 存 ) 内 存 管理 子 系统 允许 系统 中 每 一 个 运行 中 
的 进程 公平 地 共享 系统 的 物理 内 存 


Shared Virtual Memory (共享 虚拟 内 存 ) 虽然 虚拟 内 存 允 许 进 程 拥 有 分 离 〈 虚 拟 ) 的 地 址 空 
间 ， 有 了 时 你 也 需要 进程 之 间 共 享 内 存 。 例 如 ， 系 统 中 可 能 有 多 个 进程 运行 命令 解释 程序 bash。 
虽然 可 以 在 每 一 个 进程 的 虚拟 地 址 空间 都 拥有 一 份 bash 的 拷贝 , 更 好 的 是 在 物理 内 存 中 只 拥有 
一 份 拷贝 ， 所 有 运行 bash 的 进程 共享 代码 。 动 态 连 接 库 是 多 个 进程 共享 执行 代码 的 男 一 个 常见 
例子 。 共 至 内 存 也 可 以 用 于 进程 间 通 讯 (IPC) 机 制 ， 两 个 或 多 个 进程 可 以 通过 共同 拥有 的 内 存 交 
换 信 息 。Linux 系 统 文 持 系统 V 的 共享 内 存 IPC 机 制 。 











































































































3.1 An Abstract Model of Virtual Memory (虚拟 内 存 的 抽象 模型 ) 


在 考虑 Linux 支 持 虚拟 内 存 的 方法 之 前 ， 最 好 先 考 虑 一 个 抽象 的 模型 ， 以 免 被 太 多 的 细节 搞 乱 。 





在 进程 执行 程序 的 时 候 ， 它 从 内 存 中 读 取 指令 并 进行 解码 。 解 码 指令 也 许 需 要 读 取 或 者 存储 内 
存 特定 位 置 的 内 容 ， 然 后 进程 执行 指令 并 转移 到 程序 中 的 下 一 条 指令 。 进 程 不 管 是 读 取 指 令 还 
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是 存 取 数 据 都 要 访问 内 存 。 


在 一 个 虚拟 内 存 系统 中 ， 所 有 的 地 址 都 是 虚拟 地 址 而 非 物理 地 址 。 处 理 器 通过 操作 系统 保存 的 
一 组 信息 将 虚拟 地 址 转换 为 物理 地 址 。 














为 了 让 这 种 转换 更 简单 ， 将 虚拟 内 存 和 物理 内 存 分 为 适当 大 小 的 块 ， 叫 做 页 (page) 。 页 的 大 
小 一 样 。“【〈 当 然 可 以 不 一 样 ， 但 是 这 样 一 来 系统 管理 起 来 比较 困难 ) 。Linux 在 Alpha AXP 系 统 上 
使 用 8K 字 节 的 页 ， 而 在 Intel x86 系 统 上 使 用 4K 字 节 的 页 。 每 一 页 都 赋予 一 个 唯一 编号 : page 
frame number(PFN 页 编号 )。 在 这 种 分 页 模型 下 ， 虚 拟 地 址 由 两 部 分 组 成 : 虚拟 页 号 和 页 内 但 
移 量 。 假 如 页 大 小 是 4K， 则 虚拟 地 址 的 位 11 到 0 包括 页 内 偏 移 量 ， 位 12 和 以 上 的 位 是 页 编号 。 
每 一 次 处 理 器 遇 到 虚拟 地 址 ， 它 必须 提取 出 偏 移 和 虚拟 页 编号 。 处 理 器 必须 将 虚拟 页 编号 转换 
到 物理 的 页 ， 并 访问 物理 页 的 正确 偏 移 处 。 为 此 ， 处 理 器 使 用 了 页 表 (page tables) . 


图 3.1 显 示 了 两 个 进程 的 虚拟 地 址 空间 ， 进 程 X 和 进程 Y， 每 一 个 进程 拥有 自己 的 页 表 。 这 些 页 表 
将 每 一 个 进程 的 虚拟 页 映射 到 内 存 的 物理 页 上 。 图 中 显示 进程 X 的 虚拟 页 号 0 映射 到 物理 页 号 
1， 而 进程 Y 的 虚拟 页 编号 1 映射 到 物理 页 号 4。 理 论 上 页 表 每 一 个 条 目 包 括 以 下 信息 : 


















































































































































有 效 标志 表示 页 表 本 条 目 是 否 有 效 
本 页 表 条 目 描述 的 物理 页 编号 
访问 控制 信息 描述 本 页 如 何 使 用 : 是 否 可 以 写 ? 是 否 包括 执行 代码 ? 





RI 



































JURO IE M UL SU has TEM WERIN. EMRA SERIO a COKE PS 768 


EGRE e SOL E ee S) PERSE, Ab FS PC TEU ETUR 912 SMA ER EE. WEF QI RIK 
的 页 尺寸 ， 可 以 用 掩 码 或 移 位 简单 地 处 理 。 再 一 次 看 图 3.1， 假 设 页 大 小 是 0x2000 (十 进 制 
8192) ， 进 程 Y 的 虚拟 地 址 空间 的 地 址 是 0x2194， 处 理 器 将 会 把 地 址 转换 为 虚拟 页 编号 1 内 的 
偏 移 量 0x194。 
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VIRTUAL MEMORY PHYSICAL MEMORY 


dia/7C88B4DC88B495DC/redbatzero/ linux A 4% B... 





Process Y 


VPEN 0 





VIRTUAL MEMORY 


Figure 3.1: Abstract model of Virtual to Physical address mapping 








处 理 器 使 用 虚拟 页 编号 作为 索引 在 进程 的 页 表 中 找到 和 它 的 页 表 的 条 目 。 如 果 该 条 目 有 效 ， 处 理 
器 从 该 条 目 取出 物理 的 页 编号 。 如 果 本 条 目 无 效 ， 就 是 进程 访问 了 它 的 虚拟 内 存 中 不 存在 的 区 
域 。 在 这 种 情况 下 ， 处 理 器 无 法 解释 地 址 ， 必 须 将 控制 权 传 递 给 操作 系统 来 处 理 。 


处 理 需 具体 如 何 通知 操作 系统 进程 在 访问 无 法 转换 的 无 效 的 虚拟 地 址 ， 这 个 方式 是 和 处 理 器 相 





























关 的 。 处 理 器 将 这 种 信息 (page fault) 进行 传递 ， 操 作 系 统 
背 的 原因 。 











得 到 通知 ， 虚 拟 地 址 出 错 ， 以 及 出 





假设 这 是 一 个 有 效 的 页 表 条 目 ， E op UP BS OST 


AERE. Lt, SbF aS De ats TIR S OHA ITI ER 











再 用 上 述 例子 ， 进 程 Y 的 虚拟 页 编号 1 映射 到 了 物理 页 编号 4〈 起 始 于 0x8000 , 4x Ox2000) ， 











加 上 偏 移 Gx194， 得 到 了 最 终 的 物理 地 址 0x8194。 














过 这 种 方式 将 虚拟 地 址 映射 到 物理 地 址 ， 虚 拟 内 存 可 以 有 





任意 顺序 映射 到 系统 的 物理 内 存 




















a 例如 ， 图 3.1 中 ， 虚 拟 内 存 X 的 虚拟 页 编号 映射 到 了 物理 页 编号 1 而 虚拟 页 编号 7 虽然 在 虚拟 

















内 存 中 比 虚 拟 页 0 要 高 ， 却 映射 到 了 物理 页 编写 0。 这 也 演示 
虚拟 内 存 页 不 必 按 指定 顺序 映射 到 物理 内 存 中 。 
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了 虚拟 内 存 的 一 个 有 趣 的 副产品 : 
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3.1.1 Demand Paging 














因为 物理 内 存 比 虚 拟 内 存 少 得 多 ， 操 作 系统 必须 避免 无 效率 地 使 用 物理 内 存 。 节 和 省 物理 内 存 的 
一 种 方法 是 只 加 载 执 行程 序 正 在 使 用 的 虚拟 页 。 例 如 : 一 个 数据 库 程 序 可 能 正在 数据 库 上 运行 
一 个 查询 。 在 这 种 情况 下 ， 并 非 所 有 的 数据 必须 放 到 内 存 中 ， 而 只 需要 正 被 检查 的 数据 记录 。 
如 果 这 是 个 查找 型 的 查询 ， 那 么 加 载 程序 中 增加 记录 的 代码 就 没什么 意义 。 这 种 进行 访问 时 才 
加 载 虚拟 页 的 技术 叫做 dernand paging. 






























































当 一 个 进程 试图 访问 当前 个 在 内 存 中 的 虚拟 地 址 的 时 候 处 理 器 无 法 找到 引用 的 虚拟 页 对 应 的 页 
表 条 目 。 例 如 : 图 3.1 中 进程 X 的 页 表 中 没有 虚拟 页 2 的 条 目 ， 所 以 如 果 进 程 X 试 图 从 虚拟 页 2 中 
的 地 址 读 取 时 ， 处 理 需 无 法 将 地 址 转换 为 物理 地 址 。 这 时 处 理 需 通知 操作 系统 发 生 page fault. 








如 果 出 错 的 虚拟 地 址 无 效 意 味 着 进程 试图 访问 它 不 应 该 访问 的 虚拟 地 址 。 也 许 是 程序 出 错 ， 例 
如 问 内 存 中 任意 地 址 写 。 这 种 情况 下， 操作 系统 会 中 断 它 ， 从 而 保护 系统 中 其 他 的 进程 。 


如 果 出 错 的 虚拟 地 址 有 效 但 是 它 所 在 的 页 当前 不 在 内 在 中 ， 操 作 系 统 必须 从 磁盘 映像 中 将 相应 
的 页 加 载 到 内 存 中 。 相 对 来 讲 磁盘 存 取 需 要 较 长 时 间 ， 所 以 进程 必须 等 待 直到 该 页 被 取 到 内 存 
中 。 如 果 当前 有 其 他 系统 可 以 运行 ， 操 作 系统 将 选择 其 中 一 个 运行 。 取 到 的 页 被 写 到 一 个 室 半 
的 页 面 ， 并 将 一 个 有 效 的 虚拟 页 条 目 加 到 进程 的 页 表 中 。 然 后 这 个 进程 重新 运行 发 生 内 存 错误 
的 地 方 的 机 器 指令 。 这 一 次 虚拟 内 存 存 取 进行 时 ， 处 理 器 能 够 将 虚拟 地 址 转换 到 物理 地 址 ， 所 
以 进程 得 以 继续 运行 












































Linux 使 用 demand paging 技 术 将 可 执行 映像 加 载 到 进程 的 虚拟 内 存 中 。 当 一 个 命令 执行 时 ， 包 含 
它 的 文件 被 打开 ， 它 的 内 容 被 映射 到 进程 的 虚拟 内 存 中 。 这 个 过 程 是 通过 修改 摘 述 进程 内 存 映 
射 的 数据 结构 来 实现 ， 也 叫做 内 存 映射 (memory mapping) 。 但 是 ， 实 际 上 只 有 了 映像 的 第 一 部 
分 真正 放 在 了 物理 内 存 中。 映像 的 其 余部 分 仍旧 在 磁盘 上 。 当 映像 执行 时 ， 它 产生 page 
fault，Linux 使 用 进程 的 内 存 映像 表 来 确定 映像 的 那 一 部 分 需要 加 载 到 内 存 中 执行 。 





























3.1.2 Swapping (交换 ) 





如 果 进 程 需要 将 虚拟 页 放 到 物理 内 存 中 而 此 时 已 经 没有 空 闲 的 物理 页 ， 操 作 系统 必须 废弃 物理 
空间 中 的 另 一 页 ， 为 该 页 让 出 空间 。 
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如 果 物 理 内 存 中 需要 废弃 的 页 来 自 磁盘 上 的 映像 或 者 数据 文件 ， 而 且 没 有 被 写 过 所 以 不 需要 存 
储 ， 则 该 页 被 废弃 。 如 果 进 程 又 需要 该 页 ， 它 可 以 从 映像 或 数据 文件 中 再 次 加 载 到 内 存 中 。 


但 是 ， 如 果 该 页 已 经 被 改变 ， 操 作 系统 必须 保留 它 的 内 容 以 便 以 后 进行 访问 。 这 种 也 叫做 dirty 
page， 当 它 从 物理 内 存 中 废弃 时 ， 被 存 到 一 种 叫做 交换 文件 的 特殊 文件 中 。 因 为 访问 交换 文件 
的 速度 和 访问 处 理 器 以 及 物理 内 存 的 速度 相 比 很 慢 ， 操 作 系统 必须 判断 是 将 数据 页 写 到 伐 盘 上 
还 是 将 它们 保留 在 内 存 中 以 便 下 次 访问 。 



































如 果 决 定 哪些 页 需要 废弃 或 者 交换 的 算法 效率 不 高 ， 则 会 发 生 丰 入 Chrashing) 。 这 时 ， 页 不 
断 地 被 写 到 磁盘 上 ， 又 被 读 回 ， 操 作 系 统 过 于 繁忙 而 无 法 执行 实际 的 工作 。 例 如 在 图 3.1 中 ， 如 
果 物 理 页 号 1 经 常 被 访问 ， 那 么 就 不 要 将 它 交 换 到 硬盘 上 。 进 程 正在 使 用 的 也 叫做 工作 集 
(working set)。 有 效 的 交换 方案 应 该 保证 所 有 进程 的 工作 集 都 在 物理 内 存 中 。 







































































Linux 使 用 LRU (Least Recently Used 最 近 最 少 使 用 ) 的 页 面 技术 来 公平 地 选择 需要 从 系统 中 废 
弃 的 页 面 。 这 种 方案 将 系统 中 的 每 一 页 都 赋予 一 个 年 龄 ， 这 个 年 龄 在 页 面 存 取 时 改变 。 页 面 访 
问 越 多 ， 年 纪 越 轻 ， 越 少 访问 ， 年 纪 越 老 越 陈旧 。 陈 旧 的 页 面 是 交换 的 好 候选 。 











3.1.3 Shared Vitual Memory (共享 虚拟 内 存 ) 

















虚拟 内 存 使 多 个 进程 可 以 方便 地 共享 内 存 。 所 有 的 内 存 访问 都 是 通过 页 表 ， 每 一 个 进程 都 有 日 
己 的 页 表 。 对 于 两 个 共享 一 个 物理 内 存 页 的 进程 ， 这 个 物理 页 编号 必须 出 现在 两 个 进程 的 页 表 
中 。 


图 3.1 显 示 了 两 个 共享 物理 页 号 4 的 进程 。 对 于 进程 X 虚 拟 页 号 是 4， 而 对 于 进程 Y 虚 拟 页 号 是 6。 
这 也 表明 了 共享 页 的 一 个 有 趣 的 地 方 : 共享 的 物理 页 不 必 存 在 共享 它 的 进程 的 虚拟 内 存 空间 的 
同一 个 地 方 。 


























3.1.4 Physical and Vitual Addressing Modes (物理 和 虚拟 寻 址 模式 ) 

















对 于 操作 系统 本 身 而 言 ， 运 行 在 虚拟 内 存 中 没有 什么 意义 。 如 果 操 作 系统 必须 维护 自身 的 页 
表 ， 这 将 会 是 一 场 黯 梦 。 大 多 数 多 用 途 的 处 理 器 同时 支持 物理 地 址 模式 和 虚拟 地 址 模式 。 物 理 
寻 址 模式 不 需要 页 表 ， 处 理 器 在 这 种 模式 下 不 需要 进行 任何 地 址 转换 。Linux 核 心 运 行 在 物理 地 
址 模式 。 
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Alpha AXP 处 理 器 没有 特殊 的 物理 寻 址 模式 。 它 将 内 存 空间 分 为 几 个 区 ， 将 其 中 两 个 指定 为 物理 
映射 地 址 区 。 核 心 的 地 址 空间 叫做 KSEG 地 址 空间 ， 包 括 从 Oxfffffc0000000000 向 上 的 所 有 地 
址 。 为 了 执行 连接 在 KSEG 的 代码 (核心 代码 ) 或 者 访问 那里 的 数据 ， 代 码 必 须 在 核心 态 执行 。 


Alpha 上 的 Linux 核 心 连接 到 从 地 址 Oxfffffc0000310000 执 行 。 


31 I5 14 131211109 8 765 4 32 1 0 
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3.1.5 Access Control 〈 访 问 控制 ) 














页 表 条 目 也 包括 访问 控制 信息 。 当 处 理 器 使 用 页 表 条 目 将 进程 的 虚拟 地 址 映射 到 物理 地 址 的 时 




















候 ， 它 很 容易 利用 访问 控制 信息 控制 进程 不 要 用 不 允许 的 方式 进行 访问 。 








有 很 多 原因 你 希望 限制 对 于 内 存 区 域 的 访问 。 一 些 内 存 ， 比 如 包含 执行 代码 ， 本 质 上 是 只 读 的 
代码 ， 操 作 系 统 应 该 禁止 进程 写 它 的 执行 代码 。 反 过 来 ， 包 括 数据 的 页 可 以 写 ， 但 是 如 果 试 图 


























执行 这 段 内 存 应 该 失败 。 大 多 数 处 理 器 有 两 种 执行 状态 : 核心 态 和 用 户 态 。 你 不 希望 用 户 直接 


执行 核心 态 的 代码 或 者 存 取 核 心 数据 结构 ， 除 非 处 理 器 运行 在 核心 态 。 


访问 控制 信息 放 在 PTE (page table entry) 中 ， 而 且 和 具体 处 理 器 相关 。 图 3.2 显 示 了 Alpha AXP 





的 PTE。 各 个 位 意义 如 下 : 


V 有 效 ， 这 个 PTE 是 否 有 效 


FOE “Fault on Execute" 试图 执行 本 页 代码 时 ， 处 理 器 是 否 要 报告 page fault， 并 将 控制 权 传 


递 给 操作 系统 。 
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FOW “Fault on Write" 如 上 ， 在 试图 写本 页 时 产生 page fault 
FOR “fault on read” 如 上 ， 在 试图 读本 页 时 产生 page fault 
ASM 地 址 空间 匹配 。 用 于 操作 系统 清除 转换 缓冲 区 中 的 部 分 条 目 
KRE 核心 态 的 代码 可 以 读本 页 

URE 用 户 态 的 代码 可 以 读本 页 

GI 间隔 因子 ， 用 于 将 一 整 块 映射 到 一 个 转换 缓冲 条 目 而 非 多 个 。 
KWE 核心 态 的 代码 可 以 写本 页 

UWE 用 户 态 的 代码 可 以 写本 页 


Page frame number 对 于 V 位 有 效 的 PTE， 包 括 了 本 PTE 的 物理 页 编号 ， 对 于 无 效 的 PTE， 如 果 不 
是 0， 包 括 了 本 页 是 否 在 交换 文件 的 信息 。 

























































































以 下 两 位 由 Linux 定 义 并 使 用 
， 本 页 需要 写 到 交换 文件 中 。 


_PAGE_ACCESSED Linux 使 用 ， 标 志 一 页 已 经 访问 过 








_PAGE_DIRTY 如 果 设 














3.2 Caches (高 速 缓存 ) 


如 果 你 用 以 上 理论 模型 来 实现 一 个 系统 ， 它 可 以 工作 ， 但 是 不 会 太 高 效率 。 操 作 系统 和 处 理 器 
的 设计 师 都 尽力 让 系统 性 能 更 高 。 除 了 使 用 更 快 的 处 理 器 、 内 存 等 ， 最 好 的 方法 是 维护 有 用 信 
息 和 数据 的 高 速 缓存 ， 这 会 使 一 些 操 作 更 快 。Linux 使 用 了 一 系列 和 高 速 绥 存 相关 的 内 存 管 理 技 
Ñ: 










































































Buffer Cache: Buffer cache 包含 了 用 于 块 设备 驱动 程序 的 数据 绥 冲 区 。 这 些 绥 冲 区 大 小 固定 
(例如 512 字 节 ) ， 包 括 从 块 设备 读 出 的 数据 或 者 要 写 到 块 设备 的 数据 。 块 设备 是 只 能 通过 读 
写 固定 大 小 的 数据 块 来 访问 的 设备 。 所 有 的 硬盘 都 是 块 设备 。 块 设备 用 设备 标识 符 和 要 访问 的 
数据 块 编号 作为 索引 ， 用 来 快速 定位 数据 块 。 块 设备 只 能 通过 buffer cache 存 取 。 如 果 数 据 可 以 
在 buffer cache 中 找到 ， 那 就 不 需要 从 物理 块 设备 如 硬盘 上 读 取 ， 从 而 使 访问 加 快 。 





















































参见 fs/buffer.c 


Page Cache 用 来 加 快 对 磁盘 上 映像 和 数据 的 访问 。 它 用 于 缓存 文件 的 逻辑 内 容 ， 一 次 一 页 ， 并 
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通过 文件 和 文件 内 的 偏 移 来 访问 。 当 数据 页 从 磁盘 读 到 内 存 中 时 ， 被 缓存 到 page cache . 
参 


参 几 mm/filemap.c 




















Swap Cache 只 有 改动 过 的 (或 脏 dirty〉 页 才 存 在 交换 文件 中 。 只 要 它们 写 到 交换 文件 之 后 没有 
再 次 修改 ， 下 一 次 这 些 页 需要 交换 出 来 的 时 候 ， 就 不 需要 再 写 到 交换 文件 中 ， 因 为 该 页 已 经 在 
交换 文件 中 了 ， 直 接 废 弃 该 页 就 可 以 了 。 在 一 个 交换 比较 厉害 的 系统 ， 这 会 节省 许多 不 必要 和 
高 代价 的 磁盘 操作 。 























参见 mm/swap_state.c mm/swapfile.c 


VIRTUAL ADDRESS 


i ME e 


















Level | Level 2 Level 3 
Page Table Page Table Page Table Physical Page 
PFN 




















PGD 


Figure 3.3: Three Level Page Tables 








Hardware Cache: 硬 件 高 速 缓存 的 常见 的 实现 方法 是 在 处 理 器 里 面 : PTE 的 高 速 缓存 。 这 种 情况 
下 ， 处 理 器 不 需要 总 是 直接 读 页 表 ， 而 在 需要 时 把 页 转换 表 放 在 缓存 区 里 。CPU 里 有 转换 表 绥 
冲 区 (TLB Translation Look-aside Buffers)， 放 置 了 系统 中 一 个 或 多 个 进程 的 页 表 条 目的 缓存 的 找 
贝 。 























当 引 用 虚拟 地 址 时 ， 处 理 区 试图 在 TLB 中 寻找 。 如 果 找 到 了 ， 它 就 直接 将 虚拟 地 址 转换 到 物理 地 
址 ， 进 而 对 数据 执行 正确 的 操作 。 如 果 找 不 到 ， 它 就 需要 操作 系统 的 帮助 。 它 用 信号 通知 操作 
系统 ， 发 生 了 TLB missing。 一 个 和 系统 相关 的 机 制 将 这 个 异 常 转 到 操作 条 统 相 应 的 代码 来 处 
理 。 操 作 系 统 为 这 个 地 址 映射 生成 新 的 TLB 条 目 。 当 异常 清除 之 后 ， 处 理 器 再 次 尝试 转换 虚拟 地 
址 ， 这 一 次 将 会 成 功 因 为 TLB 中 该 地 址 有 了 一 个 有 效 的 条 目 。 
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高 速 缓存 的 副作用 《不 管 是 硬件 或 其 他 方式 的 ) 在 于 Linux 必 须 花 大 量 时 间 和 空间 来 维护 这 些 高 
速 缓存 区 ， 如 果 这 些 高 速 缓存 区 骨 溃 ， 系 统 也 会 衣 演 。 








3.3 Linux Page Tables (Linux 页 表 ) 














Linux 假 定 了 三 级 页 表 。 访 问 的 每 一 个 页 表 包 括 了 下 一 级 页 表 的 页 编号 。 岁 3.3 显 示 了 一 个 虚拟 
地 址 如 何 分 为 一 系列 字段 :每 一 个 字段 提供 了 在 一 个 页 表 中 的 偏 移 量 。 为 了 将 虚拟 地 址 转换 为 
物理 地 址 ， 处 理 需 必须 取得 每 一 级 字段 的 内 容 ， 转 换 为 包括 该 页 表 的 物理 页 内 的 偶 移 ， 然 后 读 
取 下 一 级 页 表 的 页 编号 。 重 复 三 次 直到 包括 虚拟 地 址 的 物理 地 址 的 页 编号 找到 为 止 。 然 后 用 虚 
拟 地 址 中 的 最 后 一 个 字段 ， 字 市 偏 移 量 ， 在 页 内 查找 数据 。 



















































































Linux 运 行 的 每 一 个 平台 都 必须 提供 转换 宏 ， 让 核心 处 理 特定 进程 的 页 表 。 这 样 ， 核 心 不 需 要 知 
道 页 表 条 目的 具体 结构 或 者 如 何 组 织 。 通 过 这 种 方式 ，Linux 成 功 地 使 用 了 相同 的 页 表 人 处 理 程序 
用 于 Alpha 和 Intel x86 处 理 器 ， 其 中 Alpha 使 用 三 级 页 表 ， 而 Intel 使 用 二 级 页 表 。 
























































参见 include/asm/pgtable.h 


3.4 Page Allocation and Deallocation (页 的 分 配 和 回收 ) 





系统 中 对 于 物理 页 有 大 量 的 需求 。 例 如 ， 当 程序 映像 加 载 到 内 存 中 的 时 候 ， 操 作 系统 需要 分 配 
页 。 当 程序 结束 执行 并 邱 载 时 需要 释放 这 些 页 。 另 外 为 了 存放 核心 相关 的 数据 结构 比如 页 表 自 
身 ， 也 需要 物理 页 。 这 种 用 于 分 配 和 回收 页 的 机 制 和 数据 结构 对 于 维护 虚拟 内 存 子 系统 的 效率 
也 许 是 最 重要 的 。 




















系统 中 的 所 有 的 物理 页 都 使 用 mem_map 数 据 结构 来 描述 。 这 是 一 个 mem_map _t 结 构 的 链表 ， 
在 局 动 时 进行 初始 化 。 每 一 个 mem_map _t《〈 容 易 混 消 的 是 这 个 结构 也 被 称 为 page 结构 ) 结构 
描述 系统 中 的 一 个 物理 页 。 重 要 的 字段 〈 人 至少 对 于 内 存 管理 而 言 ) 是 : 





参见 include/linux/mm.h 








count 本 页 用 户 数目 。 如 果 本 页 由 多 个 进程 共享 ， 计 数 嚣 大 于 1。 
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Age 描述 本 页 的 年 龄 。 用 于 决定 本 页 是 否 可 以 废弃 或 交换 出 去 。 





RI 








Map. nr mem_map_t 描 述 的 物理 页 编号 。 



































页 分 配 代码 使 用 free_area 向 量 来 查找 空闲 的 页 。 整 个 缓冲 管理 方案 用 这 种 机 制 来 支持 。 只 要 用 
了 这 种 代码 ， 处 理 器 使 用 的 页 的 大 小 和 物理 页 的 机 制 就 可 以 无 关 。 


























每 一 个 free_area 单 元 包括 页 块 的 信息 。 数 组 中 的 第 一 个 单元 描述 了 单 页 ， 下 一 个 是 2 页 大 小 的 
块 ， 下 一 个 是 4 页 大 小 的 块 ， 以 此 类 推 ， 依 次 向 上 都 是 2 的 倍数 。 这 个 链表 单元 用 作 队 列 的 开 
头 ， 有 指向 mem_map 数 组 中 页 的 数据 结构 的 指针 。 空 闲 的 页 块 在 这 里 排队 。Map 是 一 个 跟踪 这 
么 大 小 的 页 的 分 配 组 的 位 图 。 如 果 页 块 中 的 第 N 块 空闲 ， 则 位 图 中 的 第 N 位 置 位 。 


















































图 3.4 显 示 了 free_area 结 构 。 单 元 0 有 一 个 空 亲 页 〈 页 编号 0) ， 单 元 2 有 2 个 4 页 的 空闲 块 ， 第 一 
个 起 始 于 页 编号 4， 第 二 个 起 始 于 页 编号 56。 















































3.4.1 Page Allocation (页 分 配 ) 


参见 mm/page_alloc.c get free pages() 














Linux 使 用 Buddy 算 法 有 效 地 分 配 和 回收 页 块 。 页 分 配 代码 试图 分 配 一 个 由 一 个 或 多 个 物理 页 组 
成 的 块 。 页 分 配 使 用 2 的 昭 数 大 小 的 块 。 这 意味 着 可 以 分 配 1 页 大 小 ，2 页 大 小 ，4 页 大 小 的 块 ， 
依 此 类 推 。 只 要 系统 有 满足 需要 的 足够 的 空间 页 (nr_free_pages > min_free_pages) ， 分 配 代 
人 码 就 会 在 free_area 中 查找 满足 需要 大 小 的 一 个 页 块 。Free_area 中 的 每 一 个 单元 都 有 描述 自身 大 
小 的 页 块 的 占用 和 空闲 情况 的 位 图 。 例 如 ， 数 组 中 的 第 2 个 单元 拥有 描述 4 页 大 小 的 块 的 空 采 和 
占用 的 分 配 图 。 



















































































这 个 算法 首先 找 它 请 求 大 小 的 内 存 页 块 。 它 跟踪 free_area 数 据 结构 中 的 list 单 元 队列 中 的 空闲 页 
的 链表 。 如 果 请 求 大 小 的 页 块 没 有 空闲 ， 就 找 下 一 个 尺寸 的 块 〈2 倍 于 请 求 的 大 小 ) 。 继 续 这 一 
过 程 一 直到 遍历 了 所 有 的 free_area 或 者 找到 了 空闲 页 块 。 如 果 找 到 的 页 块 大 于 请 求 的 页 块 ， 则 
该 块 将 被 分 开 成 为 合适 大 小 的 块 。 因 为 所 有 的 块 都 是 2 的 过 次 的 页 数组 成 ， 所 以 这 个 分 割 的 过 程 
|l JR H mime PATA To PNEU SABA, mr NOT] 023 pk [H1 £3 
Tu] A o 
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free area PHYSICAL MEMORY 


map 
ee 


mem_map_t mem_map_t map 


| 


map 


| | 


map 





LY Free PFN 


Fivure 3.4: The free_area data suructure 


例如 在 图 3.4 中 ， 如 果 请 求 2 页 的 数据 块 ， 第 一 个 4 页 块 ( 起 始 于 页 编号 4) 将 会 被 分 为 两 个 2 页 
块 。 起 始 于 页 号 4 的 第 一 个 2 页 块 将 会 被 返回 给 调用 者 ， 而 第 二 个 2 页 块 (起 始 于 页 号 6) 将 会 排 
在 free_area 数 组 中 的 单元 1 中 2 页 空闲 块 的 队列 中 。 








3.4.2 Page Deallocation( 页 回收 ) 


分 配 页 块 的 过 程 中 将 大 的 页 块 分 为 小 的 页 块 ， 将 会 使 内 存 更 为 零散 。 页 回收 的 代码 只 要 可 能 就 
把 页 联 成 大 的 页 块 。 其 实 页 块 的 大 小 很 重要 〈2 的 震 数 ) ， 因 为 这 样 才能 很 容易 将 页 块 组 成 大 的 
页 块 。 





只 要 一 个 页 块 回收 ， 就 检查 它 的 相 邻 或 一 起 的 同样 大 小 的 页 块 是否 空 闻 。 如 果 是 这 样 ， 就 把 它 
和 新 释放 的 页 块 一 起 组 成 以 一 个 新 的 下 一 个 大 小 的 空闲 页 块 。 每 一 次 两 个 内 存 页 块 组 合成 为 更 
2 eT 页 回收 代码 都 要 试图 将 页 块 合并 成 为 更 大 的 块 。 这 样 ， 空 闲 的 页 块 束 会 尽 可 能 的 
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例如 ， 在 图 3.4， 如 果 页 号 1 和 释放， 那么 它 会 和 已 经 空闲 的 页 号 0 一 起 组 合并 放 在 free_area 的 单 
元 1 中 空闲 的 2 页 块 队列 中 。 





3.5 Memory Mapping (内 存 映射 》 





当 一 个 映像 执行 时 ， 执 行 映像 的 内 容 必 须 放 在 进程 的 虚拟 地 址 空间 中 。 对 于 执行 映像 连接 到 的 
任意 共享 库 ， 情 况 也 是 一 样 。 执 行文 件 实际 并 没有 放 到 物理 内 存 ， 而 只 是 被 连接 到 进程 的 虚拟 
内 存 。 这 样 ， 只 要 运行 程序 引用 了 映像 的 部 分 ， 这 部 分 映像 就 从 执行 文件 中 加 载 到 内 存 中 。 这 
种 映像 和 进程 虚拟 地 址 空间 的 连接 叫做 内 存 映射 。 















































每 一 个 进程 的 虚拟 内 存 用 一 个 mm_struct 数据 结构 表示 。 这 包括 当前 执行 的 映像 的 信息 (例如 
bash) 和 指向 一 组 vm_area_struct 结 构 的 指针 。 每 一 个 vm_area_struct 的 数据 结构 都 描述 了 内 存 
区 域 的 起 始 、 进 程 对 于 内 存 区 域 的 访问 权限 和 对 于 这 段 内 存 的 操作 。 这 些 操作 是 一 组 例 
程 ，Linux 用 于 管理 这 段 虚拟 内 存 。 例 如 其 中 一 种 虚拟 内 存 操作 就 是 当 进 程 试 图 访问 这 段 虚 拟 内 
存 时 发 现 〈 通 过 page fault) 内 存 不 在 物理 内 存 中 所 必须 执行 的 正确 操作 ， 这 个 操作 叫做 
nopage 操作 。Linux 请 求 把 执行 映像 的 页 加 载 到 内 存 中 的 时 候 用 到 nopage 操 作 。 


当 一 个 执行 映像 映射 到 进程 的 虚拟 地 址 空间 时 ， 产 生 一 组 vm_area_struct 数 据 结 构 。 每 一 个 
vm_area_struct 结 构 表 示 执 行 映 像 的 一 部 分 : 执行 代码 、 初 始 化 数据 〈 变 量 ) 、 未 初始 化 数据 等 
等 。Linux 支 持 一 系列 标准 的 虚拟 内 存 操作 ， 当 vm_area_struct 数 据 结构 创建 时 ， 一 组 正确 的 虚 
拟 内 存 操作 就 和 它们 关联 在 一 起 。 






































3.6 Demand Paging 











只 要 执行 映像 映射 到 进程 的 虚拟 内 存 中 ， 它 就 可 以 开始 运行 。 因 为 只 有 映像 的 最 开始 的 部 


分 是 放 在 物理 内 存 中 ， 很 快 就 会 访问 到 还 没有 放 在 物理 内 存 的 虚拟 空间 区 。 当 进程 访问 没有 有 
效 页 表 条 目的 虚拟 地 址 的 时 候 ， 处 理 器 向 Linux 报 告 page fault. Page fault 描 述 了 发 生 page fault 
的 虚拟 地 址 和 内 存 访问 类 型 。 




















Linux 必 须 找 到 page fault 发 生 的 空间 区 所 对 应 的 vm_area_struct 数 据 结构 〈 用 Adelson-Velskii 
and Landis AVL 树 型 结构 连接 在 一 起 ) 。 如 果 找 不 到 这 个 虚拟 地 址 对 应 的 vm_area_struct 结 构 ， 
说 明 进 程 访 问 了 非法 的 虚拟 地 址 。Linux 将 向 该 进程 发 信号 ， 发 送 一 个 SIGSEGV 信 和 号， 如 果 进 程 
没有 处 理 这 个 信号 ， 它 就 会 退出 。 








| 
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参见 handle mm fault() in mm/memory.c 




















Linux A Ja f2 fr page faul 的 类 型 和 该 虚拟 内 存 区 所 允许 的 访问 类 型 。 如 果 进 程 用 非法 的 方式 访问 


内 存 ， 比 如 写 一 个 它 只 可 以 读 的 区 域 ， 也 会 发 出 内 存 错 的 信号 。 





现在 Linux 确 定 page fault 是 合法 的 ， 它 必须 进行 处 理 。Linux 必 须 区 分 在 交 
页 ， 它 用 发 生 page fault 的 虚拟 地 址 的 页 表 条 目 来 确定 。 














参见 do_no_page() in mm/memory.c 





如 果 该 页 的 页 表 条 目 是 无 效 的 但 非 空 ， 此 页 是 在 交换 文件 中 。 对 于 Alpha 











换文 件 和 磁盘 映像 中 的 


AXP 页 表 条 目 来 讲 ， 有 





效 位 置 位 但 是 PFN 域 非 空 。 这 种 情况 下 PFN 域 存放 了 此 页 在 交换 文件 (以 及 那 一 个 交换 文件 ) 中 











的 位 置 。 页 在 交换 文件 中 如 何 处 理 在 本 草 后 面 讨论 。 


并 非 所 有 的 vm_area_struct 数 据 结构 都 有 一 整套 虚拟 内 存 操作 ， 而 且 那 些 有 特殊 的 内 存 操 作 的 也 
可 能 没有 nopang 操 作 。 因 为 缺 省 情况 下 ， 对 于 nopage 操 作 ，Linux 会 分 配 一 个 新 的 物理 页 并 创建 











有 效 的 页 表 条 目 。 如 果 这 一 段 虚拟 内 存 有 特殊 的 nopage 操 作 ，Linux 会 调用 这 个 特殊 的 代码 。 











通常 的 Linux nopage 操 作用 于 对 执行 映像 的 内 存 映射 ， 并 使 用 page cache 将 请 求 的 映像 页 加 载 到 
物理 内 存 中 。 虽 然 在 请 求 的 页 调 入 的 物理 内 存 中 以 后 ， 进 程 的 页 表 得 到 更 新 ， 但 是 也 许 需 要 必 
要 的 硬件 动作 来 更 新 这 些 条 目 ， 特 别 是 如 果 处 理 需 使 用 了 TLB。 既 然 page fault 得 到 了 处 理 ， 就 























可 以 扔 在 一 边 ， 进 程 在 引起 虚拟 内 存 访问 错误 的 指令 那里 重新 运行 。 


参见 mm/filemap.c filemap_nopage() 
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vm area struct 


vm. start 


vm flags 
| 
Virtual Memory 
| 
vm next opení! 
close() 


unmap () 








advise(t) 
nopage ( ) 
wppage () 
swapout () 
swapin() 


file:///media/7C88B4DC88B495DC/red batzero/ linux P3 t% A... 


Processes Virtual Memory 


Virtual Area 





Figure 3,5; Areas of Virtual Memory 
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page hash tahle 


mem, map t 


[We 1]: 


prev hash 







Ligure 3.6: The Linux Page 


3.7 The Linux Page Cache 




















Linux 的 page cache 的 作 
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mem_map_t 


inode A 


next_hash 


prev_hash 





Cache 





用 是 加 速 对 于 磁盘 文件 的 访问 。 内 存 映射 文件 每 一 次 读 入 一 页 ， 这 些 页 


被 存放 在 page cache 中 。 图 3.6 显 示 了 page cache， 包 括 一 个 指向 mem_map_t 数 据 结构 的 指针 向 





量 : page_hash_table。Linux 中 的 每 一 个 文件 都 














用 一 个 VFS inode 的 数据 结构 标示 在 第 9 章 描 





XR) ， 每 一 个 VFS [让 点 都 是 唯一 的 并 可 以 完全 确定 唯一 的 一 个 文件 。 页 表 的 索引 取 自 VFS 的 | 市 





点 写 和 文件 中 的 偏 移 。 


参见 linux/pagemap.h 





当 一 页 的 数据 从 内 存 映射 文人 


FE 中 读 出 ， 例 如 当 demand paging 时 需要 放 到 内 存 中 的 时 候 ， 此 页 通 


过 page cache 中 读 出 。 如 果 此 页 在 缓存 中 ， 就 返回 一 个 指向 mem_map_t 数 据 结构 的 指针 给 page 
fault 的 处 理 代码 。 否 则 ， 此 页 必须 从 存放 此 文件 的 文件 系统 中 加 载 到 内 存 中 。Linux 分 配 物 理 内 

















存 并 从 磁盘 文 伯 











中 读 出 该 页 。 如 果 可 能 ，Linux 会 启动 对 文 从 





F 下 一 页 的 读 。 这 种 单 页 的 超前 读 意 


RE UN ARE REM OCH 


中 顺序 读数 据 的 话 ， 下 一 页 数据 将 会 在 内 存 中 等 符 。 


当 程序 映像 读 取 和 执行 的 时 候 page cache 不 断 增 长 。 如 果 页 不 在 需要 ， 将 从 缓存 中 删除 。 比 如 
不 再 被 任何 进程 使 用 的 映像 。 当 Linux 使 用 内 存 的 时 候 ， 物 理 页 可 能 不 断 减 少 ， 这 时 Linux 可 以 减 


小 page cache。 
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3.8 Swapping out and Discarding Pages (交换 出 去 和 废弃 页 ) 


当 物 理 内 存 缺 乏 的 时 候 ，Linux 内 存 管理 子 系统 必须 试图 释放 物理 页 。 
程 上 (kswapd) 。 核 心 交换 守护 进程 是 一 种 特殊 类 型 的 进程 ， 一 个 核心 线程 。 核 心 线 程 是 没有 














这 个 任务 落 在 核心 交换 进 











虚拟 内 存 的 进程 ， 以 核心 态 运 行 在 物理 地 址 空间 。 核 心 交换 守护 进程 名 字 有 一 点 不 恰当 ， 因 为 











它 不 仅仅 是 将 页 交换 到 系统 交换 文件 上 。 它 的 任务 是 保证 系统 有 足够 的 空 


统 有 效 地 运行 。 








闲 页 ， 使 内 存 管理 系 


核心 交换 守护 进程 (kswapd) 在 启动 时 由 核心 的 init 进程 启动 ， 并 等 每 核心 的 交换 计时 器 到 


期 。 每 一 次 计时 器 到 期 ， 交换 进程 检查 系统 中 的 空 























闲 页 数 是 否 太 少 。 它 使 用 两 个 变 


ig: free_pages_high 和 free_pages_low 来 决定 是 否 释放 一 些 页 。 只 要 系统 中 的 空闲 页 数 保 持 在 








free_pages_high 之 上 ， 交 换 进 程 什 么 都 不 做 。 它 重新 间 









































E 眠 直到 它 的 计时 器 下 一 次 到 期 。 为 了 做 


这 种 检查 ， 交 换 进程 要 考虑 正在 向 交换 文件 中 写 的 页 数 ， 用 nr_async_pages 来 计数 : 每 一 次 一 
页 排 到 队列 中 等 待 写 到 交换 文件 中 的 时 候 增 加 ， 写 完 的 时 候 减 少 。Free_page_low 和 
free_page_high 是 系统 启动 时 间 设 置 的 ， 和 系统 中 的 物理 页 数 相 关 。 如 果 系 统 中 的 空闲 页 数 小 于 
free_pages_high 或 者 比 free_page_low 还 低 ， 核 心 交 换 进 程 会 尝试 三 种 方法 来 减少 系统 使 用 的 物 











理 页 数 : 


参见 mm/vmscan.c 中 的 kswapd() 


减少 buffer cache 和 page cache 的 大 小 
将 系统 V 的 共享 内 存 页 交换 出 去 


交换 和 废弃 页 


























如 果 系 统 中 的 空 闪 页 数 低 于 free_pages_low， 核 心 交 换 进程 将 试图 在 下 一 次 运行 前 释放 6 页 。 否 


则 试图 释放 3 页 。 以 上 的 每 一 种 方法 都 要 被 尝试 直到 释放 了 足够 的 页 。 
一 次 使 用 的 释放 物理 页 的 方法 。 每 一 次 运行 时 它 都 会 首先 尝试 上 


























释放 了 足够 的 页 之 后 ， 交 换 进程 又 一 次 睡 








核心 交换 进程 记录 了 它 上 
次 成 功 的 方法 来 释放 页 。 





虹 ， 直 到 它 的 计时 器 义 一 次 过 期 。 如 采 核 心 交换 进程 

















释放 页 的 原因 是 系统 空 页 的 数量 少 于 free_pages_low， 它 只 睡眠 平时 的 























数 大 于 free_pages_low， 交 换 进 程 就 恢复 原来 的 时 间 间 隔 进行 检查 。 





3.8.1 Reducing the size of the Page and Buffer Caches 


半 时 间 。 只 要 空闲 页 
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page 和 buffer cache 中 的 页 是 释放 到 free_area 问 量 中 的 好 选择 。Page Cache, AE T PTY} 
文件 的 页 ， 可 能 有 不 必要 的 数据 ， 占 去 了 系统 的 内 存 。 同 样 ，Buffer Cache ， 包 括 了 从 物理 设 
备 读 或 癌 物 理 设备 写 的 数据 ， 也 可 能 包含 了 无 用 的 缓冲 。 当 系统 中 的 物理 页 将 要 耗 尽 的 时 候 ， 
废弃 这 些 绥 存 区 中 的 页 相对 比较 容易 ， 因 为 它 不 需要 问 物 理 设备 写 ( 不 象 将 页 从 内 存 中 交换 出 
E) 。 废 弃 这 些 页 不 会 产生 多 少 有 害 的 副作用 ， 只 不 过 使 访问 物理 设备 和 内 存 映射 文件 时 慢 一 
点 。 虽 然 如 此 ， 如 果 公 平地 废弃 这 些 缓存 区 中 的 页 ， 所 有 的 进程 受到 的 影响 就 是 平等 的 。 















































每 一 次 当 核 心 交 换 进 程 要 缩小 这 些 缓存 区 时 ， 它 要 检查 mem_map 页 矢量 中 的 页 块 ， 看 是 否 可 以 
从 物理 内 存 中 废弃 。 如 果 系 统 空闲 页 太 低 〈 比 较 危 险 时 ) 而 核心 交换 进程 交换 比较 厉害 ， 这 个 
查 的 页 块 大 小 就 会 更 大 一 些 。 页 块 的 大 小 进行 循环 检查 : 每 一 次 试图 减少 内 存 映 射 时 都 用 一 
个 不 同 的 页 块 大 小 。 这 叫做 clock 算 法 ， 束 象 钟 的 时 针 。 整 个 mem_map 页 问 量 都 被 检查 ， 每 次 
一 些 页 。 























Iz 














参见 mmy/filemap.c shrink map() 











查 的 每 一 页 都 要 判断 缓存 在 page cache 或 者 buffer cache 中 。 注 意 共享 页 的 废弃 这 时 不 考虑 ， 
一 页 不 会 同时 在 两 个 缓存 中 。 如 果 该 页 不 在 这 两 个 缓冲 区 中 ， 则 mem_map 页 向 量 表 的 下 一 页 被 
检查 。 

缓存 在 buffer cache ch 中 的 页 (或 者 说 页 中 的 缓冲 区 被 缓存 ) 使 缓冲 区 的 分 配 和 释放 更 有 效 。 


缩小 内 存 映 射 的 代码 试图 释放 包含 检查 过 的 页 的 缓冲 区 。 如 果 绥 冲 区 释放 了 ， 则 包含 缓冲 区 的 
页 也 被 释放 了 。 如 果 检 查 的 页 是 在 Linux 的 page cache 中 ， 它 将 从 page cache 中 删除 并 释放 。 


Iz 




















参见 fs/buffer.c free buffer() 





如 果 这 次 尝试 释放 了 足够 的 页 ， 核 心 区 换 进 程 就 会 继续 等 待 直到 下 一 次 被 周期 性 地 唤醒 。 因 为 
释放 的 页 不 属于 任何 进程 的 虚拟 内 存 〈 只 是 缓存 的 页 ) ， 因 此 不 需要 更 新 进程 的 页 表 。 如 果 废 
弃 的 缓存 页 仍然 不 够 ， 交 换 进程 会 试图 交换 出 一 些 共享 册 。 























3.8.2 Swapping Out System V Shared Memory Pages (交换 出 系统 V 的 共享 内 存 页 ) 














系统 V 的 共享 内 存 是 一 种 进程 间 通 讯 的 机 制 ， 通 过 两 个 或 多 个 进程 共享 虚拟 内 存 交 换 信息 。 进 程 
间 如 何 共享 内 存在 第 5 章 详 细 讨 论 。 现 在 只 要 讲 讲 每 一 块 系统 V 共 享 内 存 都 用 一 个 shmid_ds 的 数 
据 结构 描述 就 足够 了 。 它 包括 一 个 指向 vm_area_struct 链 表 数 据 结 构 的 指针 ， 用 于 共享 此 内 存 的 
每 一 个 进程 。Vm_area_struct 数 据 结构 描述 了 此 共享 内 存在 每 一 个 进程 中 的 位 置 。 这 个 系统 V 的 
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内 存 中 的 每 一 个 vm_area_struct 结 构 都 用 vm_next_shared 和 vm_prev_shared 指 针 连 接 在 一 起 。 
一 个 shmid_ds 数 据 结构 都 有 一 个 页 表 条 目的 链表 ， 每 一 个 条 目 都 描述 一 个 共享 的 虚拟 页 和 物理 
页 的 对 应 关系 。 

















核心 交换 进程 将 系统 V 的 共享 内 存 页 交换 出 去 时 也 用 clock 算 法 。 它 每 一 次 运行 都 记录 了 上 一 次 
交换 出 去 了 那 一 块 共享 内 存 的 那 一 页 。 它 用 两 个 索引 来 记录 : 第 一 个 是 shmid_ds 数 据 结构 数组 
中 的 索引 ， 第 二 个 是 这 块 共享 内 存 区 的 页 表 链 中 的 索引 。 这 样 可 以 共享 内 存 区 的 牺牲 比较 公 

平 。 
































参见 ipc/shm.c shm_swap() 

















因为 一 个 指定 的 系统 V 共 享 内 存 的 虚拟 页 对 应 的 物理 页 号 包含 在 每 一 个 共享 这 块 虚拟 内 存 的 进程 
的 页 表 中 ， 所 以 核心 交换 进程 必须 修改 所 有 的 进程 的 页 表 来 体现 此 页 已 经 不 在 内 存 而 在 交换 文 
件 中 。 对 于 每 一 个 交换 出 去 的 共享 页 ， 交 换 进 程 必须 找到 在 每 一 个 共享 进程 的 页 表 中 对 应 的 此 
页 的 条 目 〈 通 过 查找 每 一 个 vm_area_struct 指 针 ) 如 果 在 一 个 进程 页 表 中 此 共享 内 存 页 的 条 目 有 
效 ， 交 换 进 程 要 把 它 变 为 无 效 ， 并 且 标记 是 交换 页 ， 同 时 将 此 共享 页 的 在 用 数 减 L。 交 换 出 去 的 
系统 V 共 享 页 表 的 格式 包括 一 个 在 shmid_ds 数 据 结构 组 中 的 索引 和 在 此 共享 内 存 区 中 页 表 条 目 
的 索引 。 





















































如 果 所 有 共享 的 内 存 都 修改 过 ， 页 的 在 用 数 变 为 0， 这 个 共享 页 就 可 以 写 到 交换 文件 中 。 这 个 系 
统 V 共 享 内 存 区 的 shmid_ds 数 据 结 构 指 向 的 页 表 中 此 页 的 条 目 将 会 换 成 交换 出 的 页 表 条 目 。 交 
换 出 的 页 表 条 目 无 效 但 是 包含 一 个 指 癌 打开 的 交换 文件 的 索引 和 此 页 在 此 文件 内 的 偶 移 量 。 这 
个 信息 用 于 将 此 页 再 取 回 物理 内 存 中 。 



































3.3 Swapping Out and Discarding Pages 

















交换 进程 轮流 检查 系统 中 的 每 一 个 进程 是 否 可 以 用 于 交换 。 好 的 候选 是 可 以 交换 的 进程 《有 一 
些 不 行 ) 并 且 有 可 以 从 内 存 中 交换 出 去 或 废弃 的 一 个 或 多 个 页 。 只 有 其 他 方法 都 不 行 的 时 候 才 
会 把 页 从 物理 内 存 交 换 到 系统 交换 文件 中 。 














参见 mm/vmscan.c swap_out() 








来 自 于 映像 文件 的 执行 映像 的 大 部 分 内 容 可 以 从 文件 中 重新 读 出 来 。 例 如 : 一 个 映像 的 执行 指 
令 不 会 被 自身 改变 ， 所 以 不 需要 写 到 交换 文件 中 。 这 些 页 只 是 被 简单 地 废弃 。 如 果 再 次 被 进程 
引用 ， 可 以 从 执行 映像 再 次 加 载 到 内 存 中 。 
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一 旦 要 交换 的 进程 确定 下 来 ， 交 换 进程 就 查看 它 的 所 有 虚拟 内 存 区 域 ， 寻 找 没有 共享 或 锁定 的 
区 域 。Linux 不 会 把 选 定 进程 的 所 有 可 以 交换 出 去 的 页 都 交换 出 去 ， 而 上 只 是 去 掉 少 量 的 页 。 如 果 
页 在 内 存 中 锁定 ， 则 不 能 被 交换 或 废弃 。 


参见 mm/vmscan.c swap out vme() 跟踪 进程 mm_struct 中 排列 的 vm_area_struct 结 构 中 的 
vm next ”vm_nex 指 针 。 























Linux 的 交换 算法 使 用 了 页 的 年 龄 。 每 一 个 页 都 有 一 个 计数 器 〈 放 在 mem_map_t 数 据 结构 中 ) ， 
2 o ds ETATE 页 不 用 时 变 老 ， 访问 时 更 新 。 交 换 进 程 只 交换 老 的 

。 缺 省 地 ， 页 第 一 次 分 配 时 年 龄 赋值 为 3。 每 一 次 访问 ， 它 的 年 龄 就 增加 3， 直 到 20。 每 一 次 
SEN UT UE. 这 个 缺 省 的 行为 可 以 更 改 ， 所 以 这 些 信 息 ( 和 
其 他 相关 信息 ) 都 存放 在 swap_control 数 据 结 构 中 。 


如 果 页 太 老 (年 龄 age = 0)， 交 换 进 程 会 进一步 处 理 。 脏 页 可 以 交换 出 去 ，Linux 在 描述 此 页 的 
PTE 中 用 一 个 和 体系 结 ,向 相关 的 位 来 的 述 这 种 页 《 见 国 3.2》， 但 是 ， 并 非 所 有 的 胜 页 都 需要 写 




































































到 交换 文件 。 a a 可 以 拥有 目 己 的 交换 操作 〈 由 vm_area_struct 中 的 
vm gas » WRI, AERA HEMT. ATM, ACHR ERE SS WA 
分 配 一 ere 
































此 页 的 页 表 条 目 会 用 一 个 无 效 的 条 目 替 换 ， 但 是 包括 了 此 页 在 交换 文件 的 信息 : 此 页 所 在 文件 
内 的 偏 移 和 所 用 的 交换 文件 。 不 管 什 么 方式 交换 ， 原 来 的 物理 页 被 放 回 到 free_ area 重 释放 。 下 
净 〈 或 不 脏 ) 的 页 可 以 被 废弃 ， 放 回 到 free_area 中 重用 。 



























































如 果 交 换 或 废弃 了 足够 的 可 交换 进程 的 页 ， 交 换 进 程 重新 睡眠 。 下 一 次 唤醒 时 它 会 考虑 系统 中 
的 下 一 个 进程 。 这 样 ， 交 换 进程 轻 咬 去 每 一 个 进程 的 物理 页 ， 直 到 系统 重新 达到 平衡 。 这 种 做 
法 比 交 换 出 整个 进程 更 公平 。 





























3.9 The Swap Cache (交换 缓存 ) 














当 把 页 交换 到 交换 文件 时 ，Linux 会 避免 写 不 必要 写 的 页 。 有 时 可 能 一 个 页 同 时 存在 于 交换 文人 
和 物理 内 存 中 。 这 发 生 于 一 页 被 交换 出 内 存 然后 在 进程 要 访问 时 又 被 调 入 内 存 的 情况 下 。 只 要 
内 存 中 的 页 没有 被 写 过 ， 交 换文 件 中 的 拷贝 就 继续 有 效 。 


f 
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Linux 用 swap cache 来 记录 这 些 页 。 交 换 缓存 是 一 个 页 表 条 目 或 者 系统 物理 页 的 链表 。 一 个 交换 
页 有 一 个 页 表 条 目 ， 描 述 使 用 的 交换 文件 和 它 在 交换 文件 中 的 位 置 。 如 果 交 换 绥 存 条 目 非 0， 表 
i MOON arte 
删除 ) 


当 Linux 需 要 交换 一 个 物理 页 到 交换 文件 的 时 候 ， 它 查看 交换 缓存 ， 如 条 有 此 页 的 有 效 条 目 ， 它 
不 需要 把 此 页 写 到 交换 文件 。 因 为 内 存 中 的 此 页 从 上 次 读 到 交换 文件 之 后 没有 被 修改 过 。 















































交换 缓存 中 的 条 目 是 曾经 交换 出 去 的 页 表 条 目 。 它 们 被 标记 为 无 效 ， 但 是 包含 了 允许 Linux 找 到 
正确 交换 文件 和 交换 文件 中 正确 页 的 信息 。 




















3.10 Swapping Page In (CZI) 














保存 在 交换 文件 中 的 脏 页 可 能 又 需要 访问 。 例 如 : 当 应 用 程序 要 向 虚拟 内 存 中 写 数 据 ， 而 此 页 
对 应 的 物理 页 交换 到 了 交换 文件 时 。 访 问 不 在 物理 内 存 的 虚拟 内 存 页 会 引发 page fault. Page 
fault 是 处 理 器 通知 操作 系统 它 不 能 将 虚拟 内 存 转换 到 物理 内 存 的 信号 。 因 为 交换 出 去 后 虚拟 内 
存 中 描述 此 页 的 页 表 条 上 日 被 标记 为 无 效 。 处 理 器 无 法 处 理 虚 拟 地 址 到 物理 地 址 的 转换 ， 将 控制 
转 回 到 操作 系统 ， 告 诉 它 发 生 错 误 的 虚拟 地 址 和 错误 的 原因 。 这 个 信息 的 格式 和 处 理 器 如 何 把 
控制 转 回 到 操作 系统 是 和 处 理 器 类 型 相关 的 。 处 理 器 相关 的 page faule 处 理 代码 必须 定位 描述 包 
括 出 错 虚 拟 地 址 的 虚拟 内 存 区 的 vm_area struct 的 数据 结构 。 它 通过 查找 该 进程 的 
vm_area_struct 数 据 结 构 ， 直 到 找到 包含 了 出 错 的 虚拟 地 址 的 那 一 个 。 这 是 对 时 间 要 求 非常 严格 
的 代码 ， 所 以 一 个 进程 的 vm_area_struct 数 据 结构 按照 特定 的 方式 排列 ， 使 这 种 查找 花费 时 间 尽 


E. 
量 少 。 















































参见 arch/i386/mm/fault.c do. page fault() 








执行 了 合适 的 和 处 理 器 相关 的 动作 并 找到 了 包括 错误 《发 生 ) 的 虚拟 地 址 的 有 效 的 虚拟 内 
ff. page fault 的 处 理 过 程 又 成 为 通用 的 ， 并 可 用 于 Linux 能 运行 的 所 有 处 理 器 。 通 用 的 page 
fault 处 理 代码 查找 错误 虚拟 地 址 的 页 表 条 目 。 如 果 它 找到 的 页 表 条 目 是 交换 出 去 的 页 ，Linux 必 
须 把 此 页 交换 回 物理 内 存 。 交 换 出 去 的 页 的 页 表 条 目的 格式 和 处 理 需 相关 ， 但 是 所 有 的 处 理 器 
都 将 这 些 页 标 为 无 效 并 在 页 表 条 目 中 放 进 了 在 交换 文件 中 定位 页 的 必要 信息 。Linux 使 用 这 种 信 
县 把 此 页 调 回 到 物理 内 存 中 。 


参见 mm/memory.c do_no_page() 










































































这 时 ，Linux 知 道 了 错误 (发 生 ) 的 虚拟 地 址 和 关于 此 页 交换 到 哪里 去 的 页 表 条 目 。 
Vm_area_struct 数 据 结 构 可 能 包括 一 个 例 程 的 指针 ， 用 于 把 这 块 虚拟 内 存 中 的 页 交换 回 到 物理 
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内 存 中 。 这 是 swapin 操 作 。 如 果 这 块 内 存 中 有 swapin 操 作 ，Linux 会 使 用 它 。 其 实 ， 交 换 出 去 的 
系统 V 的 共享 内 存 之 所 以 需要 特殊 的 处 理 因 为 交换 的 系统 V 的 共享 内 存 页 的 格式 和 普通 交换 页 的 
不 同 。 如 果 没 有 swapin 操 作 ，Linux 假 定 这 是 一 个 普通 页 ， 不 需要 特殊 的 处 理 。 它 分 配 一 块 空闲 
的 物理 页 并 将 交换 出 去 的 页 从 交换 文件 中 读 进 来 。 关 于 从 交换 文件 哪里 (和 哪 一 个 交换 文件 ) 
的 信息 取 自 无 效 的 页 表 条 目 。 



































参见 mm/page_alloc.c swap in() 











如 果 引 起 page fault 的 访问 不 是 写 访问 ， 页 束 留 在 交换 缓存 中 ， 它 的 页 表 条 目标 记 为 不 可 写 。 如 
果 后 来 此 页 又 被 写 ， 会 产生 男 一 个 page fault， 这 时 ， 此 页 被 标志 为 脏 页 ， 而 它 的 条 目 也 从 交换 
缓存 中 删除 。 如 果 此 页 没有 被 修改 而 又 需要 交换 出 来 ，Linux 束 可 以 避免 将 此 页 写 到 交换 文件 ， 
因为 此 页 已 经 在 交换 文件 中 了 。 



































如 果 将 此 页 从 交换 文件 调 回 的 访问 是 写 访 问 ， 这 个 页 就 从 交换 缓存 中 删除 ， 此 页 的 页 表 条 目 页 
标记 为 脏 页 和 可 写 。 








Chapter 4 





Processes (进程 ) 


本 章 描 述 进 程 是 什么 以 及 Linux 如 何 创建 、 管 理 和 删除 系统 中 的 进程 。 








进程 执行 操作 系统 中 的 任务 。 程 序 是 存放 在 磁盘 上 的 包括 一 系列 机 器 代码 指令 和 数据 的 可 执行 
的 映像 ， 因 此 ， 是 一 个 被 动 的 实体 。 进 程 可 以 看 作 是 一 个 执行 中 的 计算 机 程序 。 它 是 动态 的 实 
体 ， 在 处 理 器 执行 机 器 代码 指令 时 不 断 改变 。 处 理 程序 的 指令 和 数据 ， 进 程 也 包括 程序 计数 器 
和 其 他 CPU 的 寄存 器 以 及 包括 临时 数据 《例如 例 程 参 数 、 返 回 地 址 和 保存 的 变量 ) 的 堆栈 。 当 
前 执行 的 程序 ， 或 者 说 进程 ， 包 括 微 处 理 器 中 所 有 的 当前 的 活动 。Linux 是 一 个 多 进程 的 操作 系 
统 。 进 程 是 分 离 的 任务 ， 拥 有 各 目的 权利 和 责任 。 如 果 一 个 进程 骨 涡 ， 它 不 应 该 让 系统 中 的 忆 
一 个 进程 衣 溃 。 每 一 个 独立 的 进程 运行 在 自己 的 虚拟 地 址 空间 ， 除 了 通过 安全 的 核心 管理 的 机 
制 之 外 无 法 影响 其 他 的 进程 。 
















































































在 一 个 进程 的 生命 周期 中 它 会 使 用 许多 系统 资源 。 它 会 用 系统 的 CPU 执 行 它 的 指令 ， 用 系统 的 
物理 内 存 来 存储 它 和 它 的 数据 。 它 会 打开 和 使 用 文件 系统 中 的 文件 ， 会 直接 或 者 间接 使 用 系统 
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的 物理 设备 。Linux 必 须 跟踪 进程 本 身 和 它 使 用 的 系统 资源 以 便 管理 公平 地 管理 该 进程 和 系统 中 





的 其 他 进程 。 如 果 一 个 进程 独 


的 。 








占 了 系统 的 大 部 分 物理 内 存 和 CPU， 对 于 其 他 进程 就 是 不 公平 





系统 中 最 宝贵 的 资源 就 是 CPU。 通 党 系统 只 有 一 个 。Linux 是 一 个 多 进程 的 操作 系统 。 它 的 目标 
是 让 进程 一 直 在 系统 的 每 一 个 CPPU 上 运行 ， 充 分 利用 CPU。 如 果 进 程 数 多 于 CPU (多 数 是 这 
样 ) ， 其 余 的 进程 必须 等 到 CPU 被 释放 才能 运行 。 多 进程 是 一 个 简单 的 思想 : 一 个 进程 一 直 运 
行 ， 直 到 它 必 须 等 待 ， 通 汕 是 等 待 一 些 系 统 资源 ， 等 搜 有 了 资源 ， 它 才 可 以 继续 运行 。 在 一 个 





单 进 程 的 系统 ， 比 如 DOS，CPU 被 简 生 






































FE 地 设 为 空 闪 ， 这 样 等 等 的 时 间 束 会 被 浪费 。 在 一 个 多 进 
程 的 系统 中 ， 同 一 时 刻 许多 进程 在 内 存 中 。 当 一 个 进程 必须 等 待 时 操作 系统 将 CPU 从 这 个 进程 








拿 走 ， 并 将 它 交 给 为 一 个 更 需要 的 进程 。 是 调度 程序 选择 了 
下 一 次 最 合适 的 进程 。Linux 使 用 了 一 系列 的 调度 方案 来 保证 公平 。 











Linux 支 持 许多 不 同 的 可 执行 文 伯 






































这 些 文件 ， 因 为 进程 使 用 系统 的 共享 的 库 。 


4.1 Linux Processes (Linux 的 进程 ) 








Linux 中 ， 每 一 个 进程 用 一 个 task_struct (在 Linux 中 task 和 process 互 用 ) 的 数据 结构 来 表示 ， 用 





F} 格 式 ，ELF 是 其 中 之 一 ，Java 是 为 一 个 。Linux 必 须 透 明 地 管理 








来 管理 系统 中 的 进程 。Task 向 量 表 是 指向 系统 中 每 一 个 task_struct 数 据 结构 的 指针 的 数组 。 这 
意味 着 系统 中 最 大 进程 数 受 task 向 量 表 的 限制 ， 缺 省 是 512。 当 新 的 进程 创建 的 时 候 ， 从 系统 内 
存 中 分 配 一 个 新 的 task_struct， 并 增加 到 task 问 量 表 中 。 为 了 更 容易 查找 ， 用 current 指 针 指 向 








当前 运行 的 进程 。 


Z& Winclude/linux/sched.h 


























除了 普通 进程 ，Linux 也 支持 实时 进程 。 这 些 进程 必须 对 于 外 界 事件 迅速 反应 (因此 叫做 “ 实 





时 ”) ， 调 度 程序 必须 和 普通 用 户 进程 区 分 对 待 。 
但 是 它 的 域 可 以 分 为 以 下 的 功能 : 








State 进程 执行 时 它 根 据 情况 改变 状态 (state)。Linux 进 程 使 用 以 下 状态 : (这 


























SWAPPING， 因 为 看 来 没 





用 到 ) 








虽然 task_struct 数 据 结构 十 分 巨大 、 复 杂 ， 


























js dur 


Running 进程 在 运行 (是 系统 的 当前 进程 ) 或 者 准备 运行 “等待 被 安排 到 系统 的 一 个 CPU 上 ) 
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Waiting 进程 在 等 待 一 个 事件 或 资源 。Linux 区 分 两 种 类 型 的 等 待 进程 : 可 中 断 和 不 可 中 断 的 
Cinterruptible and uninterruptible) 。 可 中 晰 的 等 竺 进程 可 以 被 信号 中 断 ， 而 不 可 中 晰 的 等 竺 进 
程 直接 等 待 硬件 条 件 ， 不 能 被 任何 情况 中 断 。 


Stopped 进程 停止 了 ， 通 常 是 接收 到 了 一 个 信和 号。 正在 调试 的 进程 可 以 在 停止 状态 。 


Zombie 终止 的 进程 ， 因 为 某 种 原因 ， 在 task 问 量 表 重 任 旧 有 一 个 task_struct 数 据 结构 的 条 目 。 
就 想 听 起 来 一 样 ， 是 一 个 死亡 的 进程 。 







































































Scheduling Information 调度 者 需要 这 个 信息 用 于 公平 地 决定 系统 中 的 进程 哪 一 个 更 应 该 运行 。 


Identifiers 系统 中 的 每 一 个 进程 都 有 一 个 进程 标识 符 。 进 程 标识 符 不 是 task 向 量 表 中 的 索引 ， 而 
只 是 一 个 数字 。 每 一 个 进程 也 都 有 用 户 和 组 Cuser and group) 的 标识 符 。 用 来 控制 进程 对 于 系 
统 中 文件 和 设备 的 访问 。 
























































Inter-Process Communication Linux 支 持 传 统 的 UNIXIPC 机 制 ， 即 信号 ， 管 道 和 信号 灯 
(semaphores) ， 也 支持 系统 V 的 IPC 机 制 ， 即 共享 内 存 、 信 号 灯 和 消息 队列 。 关 于 Linux 支 持 的 
IPC 机 制 在 第 5 章 中 描述 。 


Links 在 Linux 系 统 中 ， 没 有 一 个 进程 是 和 其 他 进程 完全 无 关 的 。 系 统 中 的 每 一 个 进程 ， 除 了 初 
始 的 进程 之 外 ， 都 有 一 个 父 进程 。 新 进程 不 是 创建 的 ， 而 是 拷贝 或 者 说 从 前 一 个 进程 克隆 的 
(cloned) 。 每 一 个 进程 的 task_struct 中 都 有 指 癌 它 的 父 进程 和 兄弟 进程 (拥有 相同 的 父 进 程 的 
进程 ) 以 及 它 的 子 进程 的 的 指针 。 在 Linux 系 统 中 你 可 以 用 pstree 命 令 看 到 正在 运行 的 进程 的 家 
















































































init(1)-+-crond(98) 
|-emacs(387) 
|-gpm(146) 
|-inetd(110) 
|-kerneld(18) 
|-kflushd(2) 
|-klogd(87) 
|-kswapd(3) 


|-login( 160)--- bash(192)---emacs(225) 


36 of 212 04/21/2011 11:34 AM 





Linux Kernel 核 心中 文 手 册 


37 of 212 


|-lpd(121) 

|-mingetty(161) 
|-mingetty(162) 
|-mingetty(163) 


|-mingetty(164) 
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|-login(403)---bash(404)---pstree(594) 


|- sendmail(134) 
|- syslogd(78) 


^-update(166) 





另外 系统 中 的 所 有 的 进程 信息 还 存放 在 一 个 task_struct 数 据 结 构 的 双向 链表 中 ， 根 是 init 进 程 。 
这 个 表 让 Linux 可 以 查 到 系统 中 的 所 有 的 进程 。 它 需要 这 个 表 以 提供 对 于 ps 或 者 kill 等 命令 的 文 








持 。 




















Times and Timers 在 一 个 进程 的 生命 周期 中 ， 核 心 除 了 跟踪 它 使 用 的 CPU 时 间 还 记录 它 的 其 他 


时 间 。 每 一 个 时 间 片 (clock 























tick) ， 核 心 更 新 jiffies 中 当前 进程 在 系统 和 用 户 态 所 花 的 时 间 综 














合 。Linux 也 支持 进程 指定 的 有 

















十 间 间 隔 的 计数 器 。 进 程 可 以 使 用 系统 调用 建立 计时 器 ， 在 计时 器 





到 期 的 时 候 发 送信 号 给 目 己 。 








这 种 计时 器 可 以 是 一 次 性 的 ， 也 可 是 周期 性 的 。 








File system 进程 可 以 根据 需要 打开 或 者 关闭 文件 ， 进 程 的 task_struct 结 构 存 放 了 每 一 个 打开 的 





文件 描述 符 的 指针 和 指向 两 个 VFS | 节点 Cinode) 的 指针 。 每 一 个 VFS | 节点 唯一 描述 一 个 文件 























系统 中 的 一 个 文件 或 目录 ， 也 提供 了 对 于 底层 文件 系统 的 通用 接口 。Linux 下 如 何 文 持 文件 系统 
在 第 9 草 中 描述 。 第 一 个 | 节点 是 该 进程 的 根 《〈 它 的 主 目录 ) ， 第 二 个 是 它 的 当前 或 者 说 pwd 目 


录 。Pwd 取 自 Unix 命 令 :， 印 出 











工作 目录 。 这 两 个 VFS 节 点 本 身 有 计数 字段 ， 随 着 一 个 或 多 个 进程 

















引用 它们 而 增长 。 这 就 是 为 人 

















| 么 你 不 能 删除 一 个 进程 设 为 工作 目录 的 目录 。 








Virtual memory 多 数 进程 都 有 一 些 虚 拟 内 存 〈 核 心 线程 和 核心 守护 进程 没有 ) ，Linux 核 心 必须 








知道 这 些 虚 拟 内 存 是 如 何 映射 到 系统 的 物理 内 存 中 的 。 














Processor Specific Context 进程 可 以 看 作 是 系统 当前 状态 的 总 和 。 只 要 进程 运行 ， 它 就 要 使 用 


处 理 器 的 寄存 器 、 堆 栈 等 等 。 




















当 一 个 进程 暂停 的 时 候 ， 这 些 进程 的 下文 、 和 CPU 相关 的 上 下 





文 必须 保存 到 进程 的 task_struct 结 构 中 。 当 调度 者 重新 启动 这 个 进程 的 时 候 ， 它 的 上 下 文 就 从 
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4.2 Identifiers (标识 ) 























Linux， 象 所 有 的 Unix， 使 用 用 户 和 组 标识 符 来 检查 对 于 系统 中 的 文件 和 映像 的 访问 权限 。Linux 
系统 中 所 有 的 文件 都 有 所 有 权 和 许可 ， 这 些许 可 描述 了 系统 对 于 该 文件 或 目录 拥有 什么 样 的 权 
限 。 基 本 的 权限 是 读 、 写 和 执行 ， 并 分 配 了 3 组 用 户 : 文件 属 主 、 属 于 特定 组 的 进程 和 系统 中 的 
其 他 进程 。 每 一 组 用 户 都 可 以 拥有 不 同 的 权限 ,例如 一 个 文件 可 以 让 它 的 属 主 读 写 ， 它 的 组 
读 ， 而 系统 中 的 其 他 进程 不 能 访问 。 































































































Linux 使 用 组 来 给 一 组 用 户 赋予 对 文件 或 者 目录 的 权限 ， 而 不 是 对 系统 中 的 单个 用 户 或 者 进程 赋 
予 权 限 。 比 如 你 可 以 为 一 个 软件 项 目 中 的 所 有 用 户 创建 一 个 组 ， 使 得 只 有 他 们 才能 够 读 写 项 目 
的 源 代码 。 一 个 进程 可 以 属于 儿 个 组 ( 缺 省 是 32 个 ) ， 这 些 组 放 在 每 一 个 进程 的 task_struct 结 
构 中 的 groups 问 量 表 中 。 只 要 进程 所 属 的 其 中 一 个 组 对 于 一 个 文件 有 访问 权限 ， 则 这 个 进程 就 
又 对 于 这 个 文件 的 适当 的 组 权限 。 


一 个 进程 的 task_struct 中 有 4 对 进程 和 组 标识 符 。 




































































Uid,gid 该 进程 运行 中 所 使 用 的 用 户 的 标识 符 和 组 的 标识 符 


Effective uid and gid 一 些 程序 把 执行 进程 的 uid 和 gid 改变 为 它们 自己 的 《在 VFS | 节点 执行 
映像 的 属性 中 ) 。 这 些 程序 叫做 setuid 程 序 。 这 种 方式 有 用 ， 因 为 它 可 以 限制 对 于 服务 的 访问 ， 
特别 是 那些 用 其 他 人 的 方式 运行 的 ， 例 如 网 络 守护 进程 。 有 效 的 uid 和 gid 来 自 setuid 程 序 ， 而 
uid 和 gid 仍旧 是 原来 的 。 核 心 检 查 特 权 的 时 候 检 查 有 效 uid 和 gid。 


File system uid and gid 通常 和 有 效 uid 和 gid 相等 ， 检 查 对 于 文件 系统 的 访问 权限 。 用 于 通 
过 NFS 安 装 的 文件 系统 。 这 时 用 户 态 的 NFS 服 务 器 需要 象 一 个 特殊 进程 一 样 访问 文件 。 只 有 文件 
系统 uid 和 gid 改变 〈 而 非 有 效 uid 和 gid) 。 这 避免 了 恶意 用 户 向 NFS 的 服务 程序 发 送 Kill 信 和 号。Kill 
用 一 个 特别 的 有 效 uid 和 gid 发 送 给 进程 。 


Saved uid and gid 这 是 POSIX 标 准 的 要 求 ， 让 程序 可 以 通过 系统 调用 改变 进程 的 uid 和 gid。 用 
于 在 原来 的 vid 和 gid 改 变 之 后 存储 真实 的 vid 和 gid。 


















































































































































4.3 Scheduling (调度 ) 




















所 有 的 进程 部 分 运行 与 用 户 态 ， 部 分 运行 于 系统 态 。 底 层 的 硬件 如 何 支持 这 些 状态 各 不 相同 但 
是 通常 有 一 个 安全 机 制 从 用 户 态 转 入 系统 态 并 转 回 来 。 用 户 态 比 系统 态 的 权限 低 了 很 多 。 每 一 
次 进程 执行 一 个 系统 调用 ， 它 都 从 用 户 态 切换 到 系统 态 并 继续 执行 。 这 时 让 核心 执行 这 个 进 
程 。Linux 中 ， 进 程 不 是 互相 争夺 成 为 当前 运行 的 进程 ， 它 们 无 法 停止 正在 运行 的 其 它 进 程 然 后 
执行 自身 。 每 一 个 进程 在 它 必须 等 待 一 些 系统 事件 的 时 候 会 放弃 CPU。 例 如 ， 一 个 进程 可 能 不 
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得 不 等 待 从 一 个 文件 中 读 取 一 个 字符 。 这 个 等 竺 发生 在 系统 态 的 系统 调用 中 。 进 程 使 用 了 库 函 
数 打开 并 读 文 件 ， 库 函数 又 执行 系统 调用 从 打开 的 文件 中 读 入 学 节 。 这 时 ， 等 候 的 进程 会 被 挂 
起 ， 另 一 个 更 加 值得 的 进程 将 会 被 选择 执行 。 进 程 经 常 调用 系统 调用 ， 所 以 经 常 需要 等 待 。 即 
使 进程 执行 到 需要 等 待 也 有 可 能 会 用 去 不 均衡 的 CPU 事件 ， 所 以 Linux 使 用 抢先 式 的 调度 。 用 这 
种 方案 ， 每 一 个 进程 允许 运行 少量 一 段 时 间 ，200 毫 秒 ， 当 这 个 时 间 过 去 ， 选 择 另 一 个 进程 运 
行 ， 原 来 的 进程 等 待 一 段 时 间 直 到 它 又 重新 运行 。 这 个 时 间 段 叫做 时 间 片 。 








































































































需要 调度 程序 选择 系统 中 所 有 可 以 运行 的 进程 中 最 值得 的 进程 。 一 个 可 以 运行 的 进程 是 一 个 只 
等 待 CPU 的 进程 。Linux 使 用 合理 而 简单 的 基于 优先 级 的 调度 算法 在 系统 当前 的 进程 中 进行 选 
择 。 当 它 选择 了 准备 运行 的 新 进程 ， 它 就 保存 当前 进程 的 状态 、 和 处 理 器 相关 的 寄存 器 和 其 他 
需要 保存 的 上 下 文 信息 到 进程 的 task_struct 数 据 结构 中 。 然 后 恢复 要 运行 的 新 的 进程 的 状态 
(又 和 处 理 器 相关 ) ， 把 系统 的 控制 交 给 这 个 进程 。 为 了 公平 地 在 系统 中 所 有 可 以 运行 
(runnable〉 的 进程 之 间 分 配 CPU 时 间 ， 调 度 程序 在 每 一 个 进程 的 task_struct 结 构 中 保存 了 信 
自 . 


sve 




































































参见 kernel/sched.c schedule() 














policy 进程 的 调度 策略 。Linux 有 两 种 类 型 的 进程 : 普通 和 实时 。 实 时 进程 比 所 有 其 它 进 程 的 优 
先 级 高 。 如 果 有 一 个 实时 的 进程 准备 运行 ， 那 么 它 总 是 先 被 运行 。 实 时 进程 有 两 种 策略 : 环 或 
先进 先 出 〈round robin and first in first out) 。 在 环 的 调度 策略 下 ， 每 一 个 实时 进程 依次 运行 ， 
D E 下 ， 每 一 个 可 以 运行 的 进程 按照 它 在 调度 队列 中 的 顺序 运行 ， 这 个 顺序 不 


Priority 进程 的 调度 优先 级 。 也 是 它 允许 运行 的 时 候 可 以 使 用 的 时 间 量 Giffies) 。 你 可 以 通过 
系统 调用 或 者 renice 命 令 来 改变 一 个 进程 的 优先 级 。 


Rt priority Linux 文 持 实 时 进程 。 这 些 进程 比 系 统 中 其 他 非 实 时 的 进程 拥有 更 高 的 优先 级 。 这 个 
域 允许 调度 程序 赋予 每 一 个 实时 进程 一 个 相对 的 优先 级 。 实 时 进程 的 优先 级 可 以 用 系统 调用 来 



































































































































修改 
Coutner 这 时 进程 可 以 运行 的 时 间 量 〈jiffies) 。 进 程 启动 的 时 候 等 于 优先 级 〈priority) ， 每 一 
次 时 钟 周期 递减 。 








调度 程序 从 核心 的 多 个 地 方 运行 。 它 可 以 在 把 当前 进程 放 到 等 每 队列 之 后 运行 ， 也 可 以 在 系统 
调用 之 后 进程 从 系统 态 返 回 进程 态 之 前 运行 。 需 要 运行 调度 程序 的 男 一 个 原因 是 系统 时 钟 刚好 
把 当前 进程 的 计数 器 (counten 置 成 了 0。 每 一 次 调度 程序 运行 它 做 以 下 工作 : 




















参见 kernel/sched.c schedule() 
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kernel work 调度 程序 运行 bottom half handler 并 处 理 系 统 的 调度 任务 队列 。 这 些 轻 量 级 的 核心 线 
程 在 第 11 章 详细 描述 














Current pocess 在 选择 另 一 个 进程 之 前 必须 处 理 当 前 进程 。 
如 果 当 前 进程 的 调度 策略 是 环 则 它 放 到 运行 队列 的 最 后 。 

如 果 任 务 是 可 中 断 的 而 且 它 上 次 调度 的 时 候 收 到 过 一 个 信号 ， 它 的 状态 变 为 RUNNING 
如 果 当 前 进程 超时 ， 它 的 状态 成 为 RUNNING 

如 果 当 前 进程 的 状态 为 RUNNING 则 保持 此 状态 


不 是 RUNNING 或 者 INTERRUPTIBLE 的 进程 被 从 运行 队列 中 删除 。 这 意味 着 当 调 度 程序 查找 最 值 
得 运行 的 进程 时 不 会 考虑 这 样 的 进程 。 


Process Selection 调度 程序 查看 运行 队列 中 的 进程 ， 查 找 最 值得 运行 的 进程 。 如 果 有 实时 的 进 
Fe (具有 实时 调度 策略 ) ， 就 会 比 普 通 进程 更 重 一 些 。 普 通 进程 的 重量 是 它 的 counter， 但 是 对 
于 实时 进程 则 是 counter 加 1000。 这 意味 着 如 果 系 统 中 存在 可 运行 的 实时 进程 ， 就 总 是 在 任何 
普通 可 运行 的 进程 之 前 运行 。 当 前 的 进程 ， 因 为 用 掉 了 一 些 时 间 片 〈 它 的 counter 减 少 了 ) ， 所 
以 如 果 系 统 中 由 其 他 同等 优先 级 的 进程 ， 就 会 处 于 不 利 的 位 置 : 这 也 是 应 该 的 。 如 果 几 个 进程 
又 同样 的 优先 级 ， 最 接近 运行 队列 前 段 的 那个 就 被 选中 。 当 前 进程 被 放 到 运行 队列 的 后 面 。 如 
果 一 个 平衡 的 系统 ， 拥 有 大 量 相 同 优先 级 的 进程 ， 那 么 回 按照 顺序 执行 这 些 进程 。 这 叫做 环 型 
调度 策略 。 不 过 ， 因 为 进程 需要 等 待 资源 ， 它 们 的 运行 顺序 可 能 会 变化 。 


Swap Processes 如 果 最 值得 运行 的 进程 不 是 当前 进程 ， 当 前 进程 必须 被 挂 起 ， 运 行 新 的 进程 。 
当 一 个 进程 运行 的 时 候 它 使 用 了 CPU 和 系统 的 寄存 器 和 物理 内 存 。 每 一 次 它 调用 例 程 都 通过 寄 
存 器 或 者 堆栈 传递 参数 、 保 存 数值 比如 调用 例 程 的 返回 地 址 等 。 因 此 ， 当 调度 程序 运行 的 时 候 
它 在 当前 进程 的 上 下 文 运行 。 它 可 能 是 特权 模式 : 核心 态 ， 但 是 它 仍 旧 是 当前 运行 的 进程 。 当 
这 个 进程 要 挂 起 时 ， 它 的 所 有 机 器 状态 ， 包 括 程 序 计数 器 (PC) 和 所 有 的 处 理 嚣 寄存器， 必须 存 
到 进程 的 task_struct 数 据 结构 中 。 然 后 ， 必 须 加 载 新 进程 的 所 有 机 器 状态 。 这 种 操作 依赖 于 系 
统 ， 不 同 的 CPU 不 会 完全 相同 地 实现 ， 不 过 经 常 都 是 通过 一 些 人 硬件 的 帮助 。 













































































































































































交换 出 去 进程 的 上 下 文 发 生 在 调度 的 最 后 。 前 一 个 进程 存储 的 上 下 文 ， 就 是 当 这 个 进程 在 调度 
结束 的 时 候 系统 的 硬件 上 下 文 的 快照 。 相 同 的 ， 当 加 载 新 的 进程 的 上 下 文 时 ， 仍 旧 是 调度 结束 
时 的 快照 ， 包 括 进 程 的 程序 计数 器 和 寄存 器 的 内 容 。 






































如 果 前 一 个 进程 或 者 新 的 当前 进程 使 用 虚拟 内 存 ， 则 系统 的 页 表 需 要 更 新 。 同 样 ， 这 个 动作 适 
合体 系 结构 相关 。Alpha AXP 处 理 器 ， 使 用 TLT (Translation Look-aside Table) 或 者 缓存 的 页 表 
和 条目， 必须 清除 属于 前 一 个 进程 的 缓存 的 页 表 条 目 。 
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4.3.1 Scheduling in Multiprocessor Systems (多 处 理 器 系统 中 的 调度 ) 





在 Linux 世 界 中 ， 多 CPU 系 统 比较 少 ， 但 是 已 经 做 了 大 量 的 工作 使 Linux 成 为 一 个 SMP (对 称 多 处 
JH) 的 操作 系统 。 这 就 是 ， 可 以 在 系统 中 的 CPU 之 间 平 衡 负载 的 能 力 。 负 载 均衡 没有 比 在 调度 
程序 中 更 重要 的 了 。 








在 一 个 多 处 理 需 的 系统 中 ， 和 希望 的 情况 是 : 所 有 的 处 理 费 都 繁忙 地 运行 进程 。 每 一 个 进程 都 独 
立地 运行 调度 程序 直到 它 的 当前 的 进程 用 完 时 间 片 或 者 不 得 不 等 行 系统 资源 。SMP 系 统 中 第 一 
个 需要 注意 的 是 系统 中 可 能 不 止 一 个 空闲 〈idle) 进程 。 在 一 个 单 处 理 器 的 系统 中 ， 空 闲 进 程 是 
task 问 量 表 中 的 第 一 个 任务 ， 在 一 个 SMP 系 统 中 ， 每 一 个 CPU 都 有 一 个 空闲 的 进程 ， 而 你 可 能 
有 不 止 一 个 空 闪 CPU。 为 外 ， 每 一 个 CPPU 有 一 个 当前 进程 ， 所 以 SMP 系 统 必须 记录 每 一 个 处 理 
器 的 当前 和 空闲 进程 。 


在 一 个 SMP 系 统 中 ， 每 一 个 进程 的 task_struct 都 包含 进程 当前 运行 的 处 理 器 编号 〈processor) 
和 上 次 运行 的 处 理 器 编号 〈last_processor) 。 为 什么 进程 每 一 次 被 选择 运行 时 不 要 在 不 同 的 
CPU 上 运行 是 没什么 道理 的 ， 但 是 Linux 可 以 使 用 processor_mask 把 进程 限制 在 一 个 或 多 个 CPU 
上 。 如 果 位 N 置 位 ， 则 该 进程 可 以 运行 在 处 理 器 N 上 。 当 调度 程序 选择 运行 的 进程 的 时 候 ， 它 不 
会 考虑 processor_mask 相 应 位 没有 设置 的 进程 。 调 度 程序 也 会 利用 上 一 次 在 当前 处 理 器 运行 的 
进程 ， 因 为 把 进程 转移 到 男 一 个 处 理 器 上 经 常会 有 性 能 上 的 开支 。 
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fs struct 
count 
lask. struct umask 0x022 
s 
inode 


close_on_exec 
n fs 
ER 












inode 
falo] ile a 
fali] ; 


fd[255] 


Figure 11: A Proccss Files 
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4.4 Files (文件 

















图 4.1 显 示 了 描述 系统 每 一 个 进程 中 的 用 于 描述 和 文件 系统 相关 的 信息 的 两 个 数据 结构 。 第 一 个 
fs_struct 包 括 了 这 个 进程 的 VFS ! 节 点 和 它 的 umask。Umask 是 新 文件 创建 时 候 的 缺 省 模式 ， 可 
以 通过 系统 调用 改变 。 


参见 include/linux/sched.h 




















第 二 个 数据 结构 ，files_struct， 包 括 了 进程 当前 使 用 的 所 有 文件 的 信息 。 程 序 从 标准 输入 读 
取 ， 向 标准 输出 写 ， 错 误 信 息 输出 到 标准 错误 。 这 些 可 以 是 文件 ， 终 端 输入 /输出 或 者 世纪 的 设 
备 ， 但 是 从 程序 的 角度 它们 都 被 看 作 是 文件 。 每 一 个 文件 都 有 它 的 描述 符 ，files_struct 包 括 了 
指向 256 个 file 数 据 结果 ， 每 一 个 描述 进程 形 用 的 文件 。F_mode 域 描述 了 文件 创建 的 模式 : 只 
读 、 读 写 或 者 只 写 。F_pos 记 录 了 下 一 次 读 写 操作 在 文件 中 的 位 置 。F_inode 指 向 描述 该 文件 的 | 
节点 ，f_ops 是 指向 一 组 例 程 地 址 的 指针 ， 每 一 个 地 址 都 是 一 个 用 于 处 理 文 件 的 函数 。 例 如 写 数 
据 的 函数 。 这 种 抽象 的 接口 非常 强大 ， 使 得 Linux 可 以 支持 大 量 的 文件 类 型 。 我 们 可 以 看 到 ， 在 
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Linux 中 pipe 也 是 用 这 种 机 制 实 现 的 。 





每 一 次 打开 一 个 文件 ， 

















就 使 用 files_struct 中 的 一 个 空闲 的 file 指 针 指 向 这 个 新 的 fi 








le 结构 。Linux 


进程 启动 时 有 3 个 文件 描述 符 已 经 打开 。 这 就 是 标准 输入 、 标 准 输出 和 标准 错误 ， 这 都 是 从 创建 


它们 的 父 进程 中 继承 过 来 的 。 对 于 文件 的 访问 都 是 通过 标准 的 系统 调用 ， 需 要 传递 或 返回 文件 
描述 符 。 这 些 描述 符 是 进程 的 fd 向 量 表 中 的 索引 ， 所 以 标准 输入 、 标 准 输出 和 标准 错误 的 文件 





























描述 符 分别 是 0，14 和 2。 对 于 文件 的 所 有 访问 都 是 利用 file 数 据 结构 中 的 文件 操作 例 程 和 它 的 


VFS | 节点 一 起 来 实现 的 


4.5 Virtual Memory (E 
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拟 内 存 ) 





进程 的 虚拟 内 存 包括 多 种 来 源 的 执行 代码 和 数据 。 第 一 种 是 加 载 的 程序 映像 ， 例 如 ls 命令 。 这 


个 命令 ， 象 所 有 的 执行 映像 一 样 ， 由 执行 代码 和 数据 组 成 。 映 像 文 们 








的 程序 数据 加 载 到 进程 地 虚拟 内 存 中 所 需要 的 所 有 信息 。 第 二 种 ， 进 程 可 以 在 处 

















EWO 内 存 ， 比 如 用 于 存放 它 读 入 的 文件 的 内 容 。 新 分 配 的 虚拟 内 存 需 要 连接 

















虚拟 内 存 中 才能 使 用 。 第 三 中 ，Linux 进 程 使 用 通用 代码 组 成 的 库 ， 例 如 文件 处 理 。 每 一 个 进程 
都 包括 库 的 一 份 揽 贝 没有 意义 ，Linux 使 用 共享 库 ， 几 个 同时 运行 的 进程 可 以 共用 
边 的 代码 和 数据 必须 连接 到 该 进程 的 虚拟 地 址 空间 和 其 他 共享 该 库 的 进程 的 虚拟 地 址 空间 。 




































































中 包括 将 执行 代码 和 相关 


理 过 程 中 分 配 
到 进程 现存 的 











。 这 些 共 享 库 

















在 一 个 特定 的 时 间 ， 进 程 不 会 使 用 它 的 虚拟 内 存 中 包括 的 所 有 代码 和 数据 。 它 可 





定 情况 下 使 用 的 代码 ， 




















比如 初始 化 或 者 处 理 特定 的 事件 。 它 可 能 只 是 用 了 它 的 共 














能 包括 旨 在 特 
享 库 中 一 部 分 





例 程 。 如 果 把 所 有 这 些 代码 都 加 载 到 物理 内 存 中 而 不 使 用 只 会 是 浪费 。 把 这 种 浪费 和 系统 中 的 

















进程 数目 相 乘 ， 系 统 的 运行 效率 会 很 低 。Linux 改 为 使 























用 demand paging 技术 ， 进 程 的 虚拟 内 存 





只 在 进程 试图 使 用 的 时 候 才 调 入 物理 内 存 中 。 所 以 ，Linux 不 把 代码 和 数据 直接 加 载 到 内 存 中 ， 
而 修改 进程 的 页 表 ， 把 这 些 虚 拟 区 域 标志 为 存在 但 是 不 在 内 存 中 。 当 进程 试图 访问 这 些 代码 或 
者 数据 ， 系 统 硬件 会 产生 一 个 page fault， 把 控制 传递 给 Linux 核 心 处 理 。 因 此 ， 对 于 进程 地 址 空 
闻 的 每 一 个 虚拟 内 存 区 域 ，Linux 需 要 直到 它 从 哪里 来 和 如 何 把 它 放 到 内 存 中 ， 这 样 才 可 以 处 理 








这 些 page fault。 











Linux 核 心 需要 管理 所 有 的 这 些 虚 拟 内 存 区 域 ， 每 一 个 进程 的 虚拟 内 存 的 内 容 通 过 一 个 它 的 








task_struct 指 向 的 一 个 mm_struct mm_struc 数 据 结构 描述 。 该 进程 的 mm_struct 数 据 结构 也 包 
息 和 进程 页 表 的 指针 。 它 包括 了 指 癌 一 组 vm_area_struct 数 据 结构 的 指 
针 ， 每 一 个 都 表示 该 进程 中 的 一 个 虚拟 内 存 区 域 。 


括 加 载 的 执行 映像 的 信 
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这 个 链接 表 按照 虚拟 内 存 顺 序 排序 。 图 4.2 显 示 了 一 个 简单 进程 的 虚拟 内 存 分 布 和 管理 它 的 核心 
数据 结构 。 因 为 这 些 虚 拟 内 存 区 域 来 源 不 同 ，Linux 通 过 vm_area_struct 指 向 一 组 虚拟 内 存 处 理 
例 程 (通过 vm_ops) 的 方式 抽象 了 接口 。 这 样 进程 的 所 有 虚拟 内 存 都 可 以 用 一 种 一 致 的 方式 处 
理 ， 不 管 底层 管理 这 块 内 存 的 服务 如 何不 同 。 例 如 ， 会 有 一 个 通用 的 例 程 ， 在 进程 试图 访问 不 
存在 的 内 存 时 调用 ， 这 就 是 page fault 的 处 理 。 















































当 Linux 为 一 个 进程 创建 新 的 虚拟 内 存 区 域 和 处 理 对 于 不 在 系统 物理 内 存 中 的 虚拟 内 存 的 引用 
时 ， 反 复 引 用 进程 的 vm_area_struct 数 据 结 构 列 表 。 这 意味 着 它 查 找 正确 的 vm_area_struct 数 据 
结构 所 花 的 事件 对 于 系统 的 性 能 十 分 重要 。 为 了 加 速 访 问 ，Linux 也 把 vm_area_struct 数 据 结构 
放 到 一 个 AVL CAdelson-Velskii and Landis) 树 。 对 这 个 树 进 行 安排 使 得 每 一 个 
vm area struct (或 节点 ) 都 有 对 相 邻 的 vm_area_struct 结 构 的 一 个 左 和 一 个 右 指针 。 左 指针 指 
向 拥有 较 低 起 始 虚 拟 地 址 的 节点 ， 右 指针 指向 一 个 拥有 较 高 起 始 虚 拟 地 址 的 节点 。 为 了 找到 正 
确 的 节点 ，Linux 从 树 的 根 开 始 ， 跟 从 每 一 个 节点 的 左 和 右 指针 ， 直 到 找到 正确 的 
vm_area_struct。 当 然 ， 在 这 个 树 中 间 释 放 不 需要 时 间 ， 而 插入 新 的 vm_area_struct 需 要 额外 的 
处 理 时 间 。 
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Figure 4.2: À Process's Virtual Memory 


当 一 个 进程 分 配 虚拟 内 存 的 时 候 ，Linux 并 不 为 该 进程 保留 物理 内 存 。 它 通过 一 个 新 的 
vm_area_struct 数 据 结构 来 描述 这 块 虚拟 内 存 ， 连 接 到 进程 的 虚拟 内 存 列 表 中 。 当 进程 试图 写 这 
个 新 的 虚拟 内 存 区 域 的 时 候 ， 系 统 会 发 生 page fault。 处 理 器 试图 解码 这 个 虚拟 地 址 ， 但 是 没有 
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对 应 该 内 存 的 页 表 条 目 ， 它 会 放弃 并 产生 一 个 page fault 异 常 ， 让 Linux 核 心 处 理 。Linux 检 查 这 个 
引用 的 虚拟 地 址 是 不 是 在 进程 的 虚拟 地 址 空间 ， 如 果 是 ，Linux 创 建 适 当 的 PTE 并 为 该 进程 分 配 
物理 内 存 页 。 也 许 需 要 从 文件 系统 或 者 交换 磁盘 中 加 载 相应 的 代码 或 者 数据 ， 然 后 进程 从 引起 
page fault 的 指令 重新 运行 ， 因 为 这 次 该 内 存 实际 存在 ， 可 以 继续 。 












































4.6 Creating a Process (创建 一 个 进程 ) 











当 系 统 启动 的 时 候 它 运行 在 核心 态 ， 这 时 ， 只 有 一 个 进程 ， 初 始 化 进程 。 象 所 有 其 他 进程 一 
样 ， 初 始 进程 有 一 组 用 堆栈 、 寄 存 器 等 等 表示 的 机 器 状态 。 当 系统 中 的 其 他 进程 创建 和 运行 的 
时 候 这 些 信息 存在 初始 进程 的 task_struct 数 据 结构 中 。 在 系统 初始 化 结束 的 时 候 ， 初 始 进程 启 
动 一 个 核心 线程 〈 叫 做 init) 然后 执行 空闲 循环 ， 什 么 也 不 做 。 当 没有 什么 可 以 做 的 时 候 ， 调 度 
程序 会 运行 这 个 空闲 的 进程 。 这 个 空闲 进程 的 task_struct 是 唯一 一 个 不 是 动态 分 配 而 是 在 核心 
连接 的 时 候 静 态 定义 的 ， 为 了 不 至 于 混淆 ， 叫 做 init_task。 





















































Init 核 心 线程 或 进程 拥有 进程 标识 符 1， 是 系统 的 第 一 个 真正 的 进程 。 它 执行 系统 的 一 些 初始 化 
的 设置 〈 比 如 打开 系统 控制 它 ， 安 装 根 文件 系统 ) ， 然 后 执行 系统 初始 化 程序 。 依 赖 于 你 的 系 
统 ， 可 能 是 /etcVinit，Vbirvinit 或 /sbirinit 其 中 之 一 。Init 程 序 使 用 /etcVinittab 作 为 脚本 文件 创 
建 系统 中 的 新 进程 。 这 些 新 进程 自身 可 能 创建 新 的 进程 。 例 如 : getty 进 程 可 能 会 在 用 户 试图 登 
录 的 时 候 创 建 一 个 login 的 进程 。 系 统 中 的 所 有 进程 都 是 init 核 心 线程 的 后 代 。 






























































新 的 进程 的 创建 是 通过 克隆 旧 的 进程 ， 或 者 说 克隆 当前 的 进程 来 实现 的 。 一 个 新 的 任务 是 通过 
系统 调用 创建 的 〈fork 或 clone) ， 殉 隆 发 生 在 核心 的 核心 态 。 在 系统 调用 的 最 后 ， 产 生 一 个 新 
的 进程 ， 等 待 调度 程序 选择 它 运 行 。 从 系统 的 物理 内 存 中 为 这 个 克隆 进程 的 堆栈 (用 户 和 核 
心 ) 分 配 一 个 或 多 个 物理 的 页 用 于 新 的 task_struct 数 据 结构 。 一 个 进程 标识 符 将 会 创建 ， 在 系 
统 的 进程 标识 符 组 中 是 唯一 的 。 但 是 ， 也 可 能 克隆 的 进程 保留 它 的 父 进程 的 进程 标识 符 。 新 的 
task_struct 进 入 了 task 问 量 表 中 ， 旧 的 (当前 的 ) 进程 的 task_struct 的 内 容 拷贝 到 了 元 隆 的 


task struct. 

























































































参见 kernel/fork.c do fork() 











克隆 进程 的 时 候 ，Linux 允 许 两 个 进程 共享 资源 而 不 是 拥有 不 同 的 找 贝 。 包 括 进 程 的 文件 ， 信 号 
处 理 和 虚拟 内 存 。 共 享 这 些 资源 的 时 候 ， 它 们 相应 的 count 字 段 相 应 增 减 ， 这 样 Linux 不 会 释放 这 
些 资源 直到 两 个 进程 都 停止 使 有 用。 例如， 如果 交 隆 的 进程 要 共享 虚拟 内 存 ， 它 的 task_struct 会 
包括 一 个 指向 原来 进程 的 mm_struct 的 指针 ，mm_struct 的 count 域 增加 ， 表 示 当 前 共享 它 的 进 
程 数目 。 





~ 
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克隆 一 个 进程 的 虚拟 内 存 要 求 相 当 的 技术 。 必 须 产生 一 组 vm_area_struct 数 据 结构 、 相 应 的 
mm_struct 数 据 结 构 和 克隆 进程 的 页 表 ， 这 时 没有 Be es 这 会 是 困难 和 耗 时 的 
任务 ， 因 为 一 部 分 虚拟 内 存 可 能 在 物理 内 存 中 而 另 一 部 分 可 能 在 交换 文件 中 。 替 代 底 ，Linux 使 
用 了 叫做 “copy on write” 即 只 (有 两 个 进程 中 的 一 写 的 时 候 才 拷贝 虚拟 内 存 。 
任何 不 写 入 的 虚拟 内 存 ， 甚 能 写 的 ， 都 可 以 在 两 个 进程 之 间 共 享 二 部 会 有 什么 害处 。 只 读 
的 内 存 ， 例 如 执行 代码 ， a 为 了 实现 “copy on write”， 可 写 的 区 域 的 页 表 条 目标 记 
为 只 读 ， 而 描述 它 的 vm_area_struct 数 据 结构 标记 为 “copy on write”。 当 一 个 进程 试图 写 向 着 
这 个 虚拟 内 存 的 时 候 会 产生 page fault。 这 时 Linux 将 会 制作 这 块 内 存 的 一 份 拷贝 并 处 理 两 个 进程 
的 页 表 和 虚拟 内 存 的 数据 结构 。 

































































7. Times and Timer 


《时 间 和 计时 器 ) 








核心 跟踪 进程 的 CPU 时 间 和 其 他 一 些 时 间 。 每 一 个 时 钟 周期 ， 核 心 更 新 当前 进程 的 
jiffies 来 表示 在 系统 和 用 户 态 下 花费 的 时 间 总 和 。 




















除了 这 些 记 账 的 计时 器 ，Linux 还 支持 进程 指定 的 间隔 计时 器 Cinterval timer) 。 进 
人 自身 信号 。 支 持 三 种 间隔 计 
时 器 ; 


























Z ll. kernel /itimer.c 

















Real 这 个 计时 器 使 用 实时 计时 ， 当 计时 器 到 期 ， 发 送 给 进程 一 个 SIGALRM 信 号。 





Virtual 这 个 计时 器 只 在 进程 运行 的 时 候 计 时 ， 到 期 的 时 候 ， 发 送 给 进程 一 
SIGVTALARM 信 号 。 











Profile 在 进程 运行 的 时 候 和 系统 代表 进程 执行 的 时 候 都 及 时 。 到 期 的 时 候 ， 会 发 送 
SIGPROF 信 和 号 。 





可 以 运行 一 个 或 者 所 有 的 间隔 计时 器 ，Linux 在 进程 的 task_struct 数 据 结构 中 记录 所 
有 的 必要 信息 。 可 以 使 用 系统 调 i 启动 、 停 止 它们 ， 读 取 当 
前 的 数值 。 虚拟 和 profile 计 时 器 的 处 理 方式 相同 : 一 次 时 钟 周 期 ， 当 前 进程 的 计 
时 器 递减 ， 如 果 到 期 ， 就 发 出 适当 的 信和 号 
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参见 kernel/sched.c do_it_virtual(), do it prof() 














实时 间隔 计时 器 稍微 不 同 。Linux 使 用 计时 器 的 机 制 在 第 11 章 描述 。 每 一 个 进程 都 有 
自己 的 timer list 数据 结构 ， 当 时 使 用 实时 计时 器 的 时 候 ， 使 用 系统 的 timer 表 。 当 它 
到 期 的 时 候 ， 计 时 器 后 半 部 分 处 理 把 它 从 队列 中 删除 并 调用 间隔 计时 器 处 理 程序 。 
它 产 生 SIGALRM 信 号 并 重启 动 间隔 计时 器 ， 把 它 加 回 到 系统 计时 器 队列 。 






































参见 : kernel/iterm.c it_real_fn() 


8. Executing Programs 


(执行 程序 ) 





在 Linux 中 ， 象 Unix 一 样 ， 程 序 和 命令 通常 通过 命令 解释 器 执行 。 命 令 解 释 程序 是 和 
其 他 进程 一 样 的 用 户 进程 ， 叫 做 shell (想象 一 个 坚果 ， 把 核心 作为 中 间 可 食 的 部 
分 ， 而 shell 包 围 着 它 ， 提 供 一 个 接口 ) 。Linux 中 有 许多 shell， 最 常用 的 是 sh、bash 
和 tcsh。 除 了 一 些 内 部 命令 之 外 ， 比 如 cd 和 pwd， 命 令 是 可 执行 的 二 进 制 文件 。 对 于 
输入 的 每 一 个 命令 ，shell 在 当前 进程 的 搜索 路 径 指定 的 目录 中 《 放 在 PATH 环境 变 
量 ) 查找 匹配 的 名 字 。 如 果 找 到 了 文件 ， 就 加 载 并 运行 。Shell 用 上 述 的 fork 机 制 克 
隆 自身 ， 并 在 子 进程 中 用 找到 的 执行 映像 文件 的 内 容 蔡 换 它 正在 执行 的 三 进 制 映像 
(shell) 。 通 常 shell 等 待命 令 结束 ， 或 者 说 子 进程 退出 。 你 可 以 通过 输入 control-Z 
发 送 一 个 SIGSTOP 信 号 给 子 进程 ， 把 子 进程 停止 并 放 到 后 台 ， 让 shell 重 新 运行 。 你 
可 以 使 用 shell 命 令 bg 让 shell 向 子 进程 发 送 SIGCONT 信 号 ， 把 子 进程 放 到 后 台 并 重新 
运行 ， 它 会 持续 运行 直到 它 结束 或 者 需要 从 终端 输入 或 输出 。 


































































































formats linux, binfmt linux, binfmt linux, hinlmt 


ead binaryt 
*load_shlibt) 
*core_dumpt} *core_dumpt) 





Figure 4,3: Registered Binary Formats 




















执行 文件 可 以 由 许多 格式 甚至 可 以 是 一 个 脚本 文件 〈script file) 。 脚 本 文件 必须 用 
合适 的 解释 程序 识别 并 运行 。 例 如 /bin/sh 解 释 shell script。 可 执行 的 目标 文件 包括 
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了 执行 代码 和 数据 以 及 足够 的 其 他 信息 ， 时 的 操作 系统 可 以 把 它们 加 载 到 内 存 中 并 
执行 。Linux 中 最 常用 的 目标 文件 类 型 是 ELF， 而 理论 上 ，Linux 灵 活 到 足以 处 理 几乎 
所 有 的 目标 文件 格式 。 


好 像 文件 系统 一 样 ，Linux 可 以 支持 的 二 进 制 格式 也 是 在 核心 连接 的 时 候 直接 建立 在 
核心 的 或 者 是 可 以 作为 模块 加 载 的 。 核 心 保存 了 支持 的 二 进 制 格式 〈 见 图 4.3) 的 列 
表 ， 当 试图 执行 一 个 文件 的 时 候 ， 每 一 个 二 进 制 格式 都 被 尝试 ， 直 到 可 以 工作 。 通 
常 ，Linux 支 持 的 二 进 制 文件 是 aout 和 ELF。 可 执行 文件 不 需要 完全 读 入 内 存 ， 而 使 
用 叫做 demand loading 的 技术 。 当 进程 使 用 执行 映像 的 一 部 分 的 时 候 它 才 被 调 入 内 
存 ， 未 被 使 用 的 映像 可 以 从 内 存 中 废弃 。 



































参见 fs/exec.c do execve() 


ELF Executable Image 


e ident 

e entry 

e phoff 

e phentsize 
e phnum 


p-type 
p oltfset 


Physical Header p vaddr 


p. filesz 
p memsz 
p. flags 


p_type 
p. offset 
Physical Header p vaddr 
p. filesz 
p memsz 
p. flags 





Figure 14; ELF Executable File Format 
1. ELF 
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ELF (Executable and Linkable Format 可 执行 可 连接 格式 ) 目标 文件 ， 由 Unix 
系统 实验 室 设计 ， 现 在 成 为 Linux 最 常用 的 格式 。 虽 然 和 其 他 目标 文件 格式 比 
如 ECOFF 和 a.out 相 比 ， 有 性 能 上 的 轻微 开支 ，ELF 感 觉 更 灵活 。ELF 可 执行 文 
件 包括 可 执行 代码 (有 时 叫做 text〉， 和 数据 (data)。 执 行 映像 中 的 表 描 述 了 
程序 应 该 如 何 放 到 进程 的 虚拟 内 存 中 。 静 态 连 接 的 映像 是 用 连接 程序 (dd) 或 
者 连接 编辑 器 创建 的 ， 单 一 的 映像 中 包括 了 运行 该 映像 所 需要 的 所 有 的 代码 和 
1 
Th rb 。 




































































图 4.4 象 是 了 静态 连接 的 ELF 可 执行 映像 的 布局 。 这 是 个 简单 的 C 程 序 ， 打 印 
“hello world” 然 后 退出 。 头 文件 描述 了 它 是 一 个 ELF 映 像 ， 有 两 个 物理 头 
(Ce_phnum 是 2) ， 从 映像 文件 的 开头 第 52 字 节 开 始 〈e_phoff) 。 第 一 个 物理 
头 描述 映像 中 的 执行 代码 ， 在 虚拟 地 址 0x8048000， 有 65532 字 节 。 因 为 它 是 
静态 连接 的 ， 所 以 包括 输出 “hello world” 的 调用 printf O 的 所 有 的 库 代码 。 
映像 的 入 口 ， 即 程序 的 第 一 条 指令 ， 不 是 位 于 映像 的 起 始 位 置 ， 而 在 虚拟 地 址 
0x8048090 (e entry) 。 代 码 紧 接着 在 第 二 物理 头 后 面 开 始 。 这 个 物理 头 描 
述 了 程序 的 数据 ， 将 会 加 载 到 虚拟 内 存 地 址 0x8059BB8。 这 块 数据 可 以 读 写 。 
你 会 注意 到 文件 中 数据 的 大 小 是 2200 字 节 (p files) 而 在 内 存 中 的 大 小 是 
4248 字 节 。 因 为 前 2200 字 节 包 括 预 先 初始 化 的 数据 ， 而 接着 的 2048 字 节 包 括 
会 被 执行 代码 初始 化 的 数据 。 


22 Winclude/linux/elf.h 





























当 Linux 把 ELF 可 执行 映像 加 载 到 进程 的 虚拟 地 址 空间 的 时 候 ， 它 不 是 实际 的 加 
载 映 像 。 它 设置 虚拟 内 存 数据 结构 ， 即 进程 的 vm_area_struct 和 它 的 页 表 。 当 
程序 执行 了 page fault 的 时 候 ， 程 序 的 代码 和 数据 会 被 放 到 物理 内 存 中 。 没 有 
用 到 的 程序 部 分 将 不 会 被 放 到 内 存 中 。 一 旦 ELF 二 进 制 格式 加 载 程序 满足 条 
件 ， 映 像 是 一 个 有 效 的 ELF 可 执行 映像 ， 它 把 进程 的 当前 可 执行 映像 从 它 的 虚 
拟 内 存 中 清除 。 因 为 这 个 进程 是 个 克隆 的 映像 (所 有 的 进程 都 是 ) ， 旧 的 映像 
是 父 进程 执行 的 程序 的 映像 〈 例 如 命令 解释 程序 shell bash) 。 清 除 旧 的 可 执 
行 映 像 会 废弃 旧 的 虚拟 内 存 的 数据 结构 ， 重 置 进程 的 页 表 。 它 也 会 清除 设置 的 
其 他 信号 处 理 程序 ， 关 闭 打 开 的 文件 。 在 清除 过 程 的 最 后 ， 进 程 准 备 运行 新 的 
可 执行 映像 。 不 管 可 执行 映像 的 格式 如 何 ， 进 程 的 mm_struct 中 都 要 设置 相同 
的 信息 。 包 括 指向 映像 中 代码 和 数据 起 始 的 指针 。 这 些 数 值 从 ELF 可 执行 映像 
的 物理 头 中 读 入 ， 它 们 描述 的 部 分 也 被 映射 到 了 进程 的 虚拟 地 址 空间 。 这 也 发 
生 在 进程 的 vm_area_struct 数 据 结构 建立 和 页 表 修 改 的 时 候 。mm_struct 数 据 
结构 中 也 包括 指针 ， 指 向 传递 给 程序 的 参数 和 进程 的 环境 变量 。 
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ELF Shared Libraries (ELF 共 享 库 ) 








动态 连接 的 映像 ， 反 过 来 ， 不 包含 运行 所 需 的 所 有 的 代码 和 数据 。 其 中 一 些 放 
在 共享 库 并 在 运行 的 时 候 连 接 到 映像 中 。 当 运行 时 动态 库 连 接 到 映像 中 的 时 
候 ， 动 态 连接 程序 (dynamic linker) 也 要 使 用 ELF 共 享 库 的 表 。Linux 使 用 几 个 
动态 连接 程序 ，|d.so.1，libc.so.1 和 Id-linux.so.1， 都 在 /lib 目 录 下 。 这 些 库 包 
括 通用 的 代码 ， 比 如 语言 子 例 程 。 如 果 没 有 动态 连接 ， 所 有 的 程序 都 必须 有 这 
些 库 的 独立 拷贝 , 需要 更 多 的 磁盘 空间 和 虚拟 内 存 。 在 动态 连接 的 情况 
下 ，ELF 映 像 的 表 中 包括 引用 的 所 有 库 例 程 的 信息 。 这 些 信 息 指示 动态 连接 程 
序 如 何 定位 库 例 程 以 及 如 何 连接 到 程序 的 地 址 空间 。 



















































































2. Scripts Files 








脚本 文件 是 需要 解释 器 才能 运行 的 可 执行 文件 。Linux 下 有 大 量 的 解释 器 ， 例 如 wish、perl 和 命 
令 解 释 程 序 比如 tcsh。Linux 使 用 标准 的 Unix 约 定 ， 在 脚本 文件 的 第 一 行 包 括 解释 程序 的 名 字 。 
所 以 一 个 典型 的 脚本 文件 可 能 开头 是 : 


#! /usr/bin/wish 



































脚本 文件 加 载 器 试图 找 出 文件 所 用 的 解释 程序 。 它 试图 打开 脚本 文件 第 一 行 指定 的 可 执行 文 
件 。 如 果 可 以 打开 ， 就 得 到 一 个 指向 该 文件 的 VFS | 节点 的 指针 ， 然 后 执行 它 去 解释 脚本 文件 。 
脚本 文件 的 名 字 成 为 了 参数 0《〈 第 一 个 参数 ) ， 所 有 的 其 他 参数 都 同上 移动 一 位 《原来 的 第 一 个 
参数 成 为 了 第 二 个 参数 等 等 ) 。 加 载 解释 程序 和 Linux 加 载 其 他 可 执行 程序 一 样 。Linux 依 次 尝试 
各 种 二 进 制 格式 ， 直 到 可 以 工作 。 这 意味 着 理论 上 你 可 以 把 几 种 解释 程序 和 二 进 制 格式 堆积 起 
来 ， 让 Linux 的 二 进 制 格式 处 理 程序 更 加 灵活 。 























参见 fs/binfmt_script.c do load script() 
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进程 之 间 互 相通 讯 并 和 核心 通讯 ， 协 调 它 们 的 行为 。Linux 文 持 一 些 进 程 间 通 讯 




















5.1 Signals (fi 




















信号 和 管道 是 其 中 的 两 种 ，Linux 还 文 持 系统 V IPC〈 用 首次 出 现 的 Unix 的 版 本 命 


Hy) 
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件 的 信号 。 信 号 























拟 内 存 中 不 存在 的 位 置 








。Shell 也 使 用 信号 向 它 的 子 进程 发 送 作业 控制 信和 号。 














CIPC) 的 机 制 。 
名 ) 的 机 制 。 








可 以 用 键盘 终端 产生 ， 或 者 通过 一 个 蚀 误 条 件 产 生 ， 比 如 进程 试图 访问 它 的 虚 














有 一 些 信号 有 核心 产生 ， 妨 一些 可 以 由 系统 中 其 他 有 权限 的 进程 产生 。 你 可 以 使 用 kill 命 令 Ckill 
-D 列 出 你 的 系统 的 信号 集 ， 在 我 的 Linux Intel 系 统 输出 : 














1) SIGHUP 2) SIGINT 3) SIGQUIT 4) SIGILL 


5) SIGTRAP 6) 


SIGIOT 7) SIGBUS 8) SIGFPE 


9) SIGKILL 10) SIGUSR1 11) SIGSEGV 12) SIGUSR2 


13) SIGPIPE 14) SIGALRM 15) SIGTERM 17) SIGCHLD 


18) SIGCONT 19) SIGSTOP 20) SIGTSTP 21) SIGTTIN 


22) SIGTTOU 23) SIGURG 24) SIGXCPU 25) SIGXFSZ 


26) SIGVTALRM 27) SIGPROF 28) SIGWINCH 29) SIGIO 


30) SIGPWR 

















1E Alpha AXP Linux 系 统 上 编号 不 同 。 进 程 可 以 选择 忽略 产生 的 大 多 数 信 
《让 进程 停止 执行 ) 和 SIGKILL《〈 让 进程 退出 ) 不 可 以 忽略 ， 虽 然 进程 可 以 选择 它 


外 : SIGSTOP 
如 何 处 理 信号 。 
























































进程 可 以 阻塞 信号 ， 如 果 它 不 阻塞 信号 ， 它 可 以 选择 自己 处 














Hw. ^ pl 








理 或 者 让 核心 处 


理 。 如 果 核 心 处 理 ， 将 会 执行 该 信号 的 缺 省 行为 。 例 如 ， 进 程 接收 到 SIGFPE《〈 浮 点 意外 ) IPIS 


省 动作 是 产生 core 并 退出 。 























。 进 程 无 法 知道 它 接收 了 1 还 是 42 个 SIGCONT 信 号 。 




















信号 没有 固有 的 优先 级 ， 如 果 一 个 进程 同时 产生 了 两 个 信号 ， 它 们 
ee 男 外 ， 也 没有 机 制 可 以 处 理 统一 种 类 的 多 个 信 
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De pp 








前 待 处 理 的 信和 号 放 在 signal 域 ，blocked 域 放 着 要 阻塞 
有 的 信号 都 可 以 被 阻塞 。 如 果 产 生 了 一 个 被 阻塞 的 信号 ， 它 一 直 保 留 竺 
塞 。Linux 也 保存 每 一 个 进程 如 何 处 理 每 一 种 可 能 的 信号 的 信息 ， 这 些 信 ， 











用 进程 的 task_struct 中 存放 的 信息 来 实现 f 
位 字 长 的 处 理 器 可 以 有 32 中 1 


SEU 











文 持 的 信 









































言 号 受 限 于 处 理 器 的 字 长 。32 
言 号 ， 而 64 位 的 处 理 器 ， 比 如 Alpha AXP 可 以 有 多 达 64 种 信号 。 当 
的 信号 掩 码 。 除 了 SIGSTOP 和 SIGKILL， 所 
处 理 ， 直 到 被 解除 阻 
息 放 在 一 个 sigaction 的 





数据 结构 数组 中 ， 每 一 个 进程 的 task_struct 都 有 指针 指向 对 应 的 数组 。 这 个 数组 中 包括 处 理 这 


AN fos 








理 。 进 程 通 
HIEI 


FEAR RSC PATA ANE Re A RT A qn] EC RE S ERES fi 5 
程 只 可 以 向 拥有 相同 uid 和 gid 或 者 在 相同 进程 
signal 中 适当 的 位 产生 信和 号。 如 果 进 程 不 阻塞 信号 ， 
那么 它 的 状态 被 改 为 Running 并 确 














Interruptible) ， 


或 者 包括 一 
Hit BAIA 




















样 调 度 程 








看 起 来 好 像 非 常 不 可 靠 
的 过 程 中 。 如 果 愿 意 ， 进 程 可 以 选择 等 待 信 
言 号 处 理 代 码 检 碍 sigaction 结 构 中 每 一 个 当前 未 阻塞 的 信和 号 。 





号 。Linux 信 





如 果 信 


的 状态 改 为 Stopped， 然 后 运行 调度 程序 ， 选择 一 个 新 的 进程 来 运行 。 SIGFPE 信 
前 进程 产生 core (core dump) ， 让 它 退 出 。 变 通 地 ， 进 程 可 以 指定 自己 的 信号 处 理 程序 。 
而 且 sigaction 结 构 包 括 这 个 例 程 的 地 址 。Linux 必 须 调用 
体 如 何 发 生 是 和 处 理 器 相关 。 但 是 ， 所 有 的 CPU 必须 处 理 的 是 当 





EHR 
这 是 一 个 例 程 ， 当 信 





进程 的 信号 处 理 例 程 ， 至 于 具 








情 。 











用 改变 缺 省 的 信号 处 理 ， 这 些 调 





序 在 系统 下 次 调度 的 时 候 会 把 它 当 作 一 
以 优化 信号 的 处 理 。 例 如 如 果 信 号 SIGWINCH (X window 改 变焦 点 ) 发 生 而 使 
序 ， 则 不 需要 做 什么 


中 退出 的 时 候 都 要 检查 它 的 signal 和 blocked 域 ， 如 果 有 任 
EE， 但 是 系统 中 的 每 一 个 进程 都 在 调 





言 写 处 理 程序 设置 为 缺 省 动作 ， 则 核心 会 处 理 它 


Hs 


Shits, mi URLinuxiZ XE FE de ds 2B 20 





这 个 信 





























用 改变 适当 的 信 

















写 ， 

















只 有 核心 和 超级 





时 组 的 进程 发 送信 














而 且 正 





言 号 还 是 让 核心 处 
过 号 的 sigaction 和 阻塞 


H AA. 
HS. api He Waste — struct 


年 等 待 但 是 可 以 中 断 〈 状 态 





ics 通过 这 种 方式 把 它 唤 醒 。 
个 运行 的 候选 。 如 果 需 要 缺 省 的 处 理 ，Linux 可 
用 缺 省 的 处 理 程 


























信号 产生 的 时 候 不 会 立刻 出 现在 进程 中 ， 它 们 必须 等 到 进程 下 次 运行 。 每 一 次 进程 从 系统 调用 














何 没有 阻塞 的 人 



































埋 号 产生 的 时 候 调 

















前 进程 正 运行 在 核心 态 ， 并 正 准备 返回 到 调 
A AC E DM. 进程 程序 计数 器 设 为 它 的 信 
参数 加 到 调用 结构 或 者 通 





用 。 





Linux 是 POSIX 兼 容 的 ， 所 以 进程 可 以 指定 调 
用 进程 的 信号 处 理 程序 的 时 候 改 变 bloc 
人 码 必 须 恢复 到 它 的 初始 值 。 因 此 ，Linux 在 收 到 信 














味 看 在 调 


























寄存 器 传递 。 当 进程 























ked 掩 码 。 信 








用 系统 调 
它们 挂 起 在 Interruptible 状 态 ， 直 到 有 了 一 个 信 


。SIGSTOP 信 和 号 


核心 或 系统 例 程 的 








H, keint 


x 








言 写 ， 就 可 以 发 送 。 这 


项 与 


一 个 字符 

















的 缺 省 处 理 是 把 当前 进程 





=j 



































号 的 缺 省 


动作 是 





用 户 态 的 进程 。 解 决 这 个 问题 
言 写 处 理 程序 的 地 址 ， 
恢复 运行 的 时 候 显得 信号 处 理 程 序 是 正常 的 调 





例 程 的 








特定 的 信号 处 理 程序 的 时 候 要 阻塞 的 信 


S 
H Fo OS 





言 写 处 理 程序 结束 的 时 候 ， 








blocked 


言 写 的 进程 的 堆栈 中 增加 了 对 于 一 个 整理 例 程 的 
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调用 ， 把 blocked 掩 码 恢 复 到 初始 值 。Linux 也 优化 了 这 种 情况 : 如 末 同 时 儿 个 信号 处 理 例 程 需要 











调用 的 时 候 ， 就 在 它们 堆积 在 一 起 ， 每 次 退出 一 个 处 理 例 程 的 时 候 就 调 月 
调用 整理 例 程 。 




















5.2 Pipes (管道 ) 














普通 的 Linux shell 都 允许 重 定向 。 例 如 : 





$ Is | pr | Ipr 








把 列 出 目录 文件 的 命令 ls 的 输出 通过 管道 接 到 pr 命令 的 标准 输入 上 进行 分 页 。 
准 输出 通过 管道 连接 到 Ipr 命 令 的 标准 输入 上 ， 在 缺 省 打印 机 上 打印 出 结果 。 
































H F 








最 后 ，pr 命 令 、 
管道 是 单间 的 字 




















流 ， 把 一 个 进程 的 标准 输出 和 男 一 个 进程 的 标准 输入 连接 在 一 起 。 没 有 一 个 进程 意识 到 这 种 重 











定 癌 ， 和 和 它 平 第 一 样 工作 。 是 shell 建 立 了 进程 之 间 的 临时 管道 。 在 Linux 中 ， 使 











时 VFS | 节点 (本 里 指向 内 存 中 的 一 个 物理 页 〉 的 两 个 file 数 据 结构 来 实现 管 


AS ME 




















| JH o 














用 指 问 同一 个 临 
图 5.1 显 示 了 每 











一 个 file 数 据 结构 包含 了 不 同 的 文件 操作 例 程 的 向 量 表 的 指针 : TH S. R 个 从 管道 中 



































读 。 这 掩盖 了 和 通用 的 读 写 普通 文件 的 系统 调用 的 不 同 。 当 写 进程 向 管道 

















贝 到 了 共享 的 数据 页 ， 当 从 管道 中 读 的 时 候 ， 



























































and signals) 。 


Z& Winclude/linux/inode fs.h 


中 写 














MH, em 


Linux Ali 同步 对 于 管 


道 的 访问 。 必 须 保 证 管道 的 号 和 读 步 调 一 致 ， 它 使 用 锁 、 等 待 队 列 和 信和 号 Clocks. wait queues 
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Figure 5,1; Pipes 

















当 写 进程 向 管道 写 的 时 候 ， 它 使 用 标准 的 write 库 函 数 。 这 些 库 函数 传递 的 文件 描述 符 是 进程 的 
file 数 据 结 构 组 中 的 索引 ， 每 一 个 都 表示 一 个 打开 的 文件 ， 在 这 种 情况 下 ， 是 打开 的 管道 。Linux 
系统 调用 使 用 描述 这 个 管道 的 file 数 据 结构 指向 的 write 例 程 。 这 个 write 例 程 使 用 表示 管道 的 VFS 
| 节点 存放 的 信息 ， 来 管理 写 的 请 求 。 如 果 有 足够 的 空间 把 所 有 的 字 节 都 写 导 管 到 中 ， 只 要 管道 
没有 被 读 进 程 锁 定 ，Linux 为 写 进程 上 锁 ， 并 把 池 节 从 进程 的 地 址 空间 找 贝 到 共享 的 数据 页 。 如 
有 果 管 道 被 读 进程 锁定 或 者 空间 不 够 ， 当 前 进程 睡眠 ， 并 放 在 管道 | 节点 的 等 待 队 列 中 ， 并 调用 调 
度 程序 ， 运 行 男 外 一 个 进程 。 它 是 可 以 中 断 的 ， 所 以 它 可 以 接收 信号 。 当 管道 中 有 了 足够 的 空 
间 写 数据 或 者 锁定 解除 ， 写 进程 就 会 被 读 进程 唤醒 。 当 数据 写 完 之 后 ， 管 道 的 VFS | 节点 锁定 解 
除 ， 管 道 | 节点 的 等 待 队列 中 的 所 有 读 进 程 都 会 被 唤醒 。 
































































































































































































































参见 fs/pipe.c pipe write() 





从 管道 中 读 取 数 据 和 写 数据 非常 相似 。 进 程 允许 进行 非 阻塞 的 读 (依赖 于 它们 打开 文件 或 者 管 
道 的 模式 ) ， 这 时 ， 如 果 没 有 数据 可 读 或 者 管道 被 锁定 ， 会 返回 一 个 错误 。 这 意味 着 进程 会 继 
续 运 行 。 男 一 种 方式 是 在 管道 的 [ 节 扣 的 等 待 队 列 中 等 等 ， 直到 写 进 程 完成 。 如 果 管 道 的 进程 都 
完成 了 操作 ， 管 道 的 [节点 和 相应 的 共享 数据 页 被 废弃 。 
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参见 fs/pipe.c pipe read) 


















































Linux 也 可 以 支持 命名 管道 ， 也 叫 FIFO， 因 为 管道 工作 在 先入 先 出 的 原则 下 。 首 先 写 入 管道 的 数 
据 是 首先 被 读 出 的 数据 。 不 想 管道 ，FIFO 不 是 临时 的 对 象 ， 它 们 是 文件 系统 中 的 实体 ， 可 以 用 
mkfifo 命 令 创 建 。 只 要 有 合适 的 访问 权限 ， 进 程 就 可 以 使 用 FIFO。FIFO 的 大 开 方 式 和 管道 稍微 不 
同 。 一 个 管道 〈 它 的 两 个 file 数 据 结构 ，VFS |! 节 点 和 共享 的 数据 页 ) 是 一 次 性 创建 的 ， 而 FIFO 是 
已 经 存在 ， 可 以 由 它 的 用 户 打 开 和 关闭 的 。Linux 必 须 处 理 在 写 进 程 打 开 FIFO 之 前 打开 FIFO 读 的 
进程 ， 以 及 在 写 进 程 写 数据 之 前 读 的 进程 。 除 了 这 些 ，FIFO 儿 乎 和 管道 的 处 理 完全 一 样 ， 而 且 
它们 使 用 一 样 的 数据 结构 和 操作 。 



































































































































3. Sockets 


注意 : 写 网 络 篇 的 时 候 加 上 去 


1. System V IPC mechanisms 
(系统 V IPC 机 制 )》 





Linux 支 持 三 种 首次 出 现在 Unix 系统 VY (1983) 的 进程 间 通 讯 的 机 制 : 消息 队 
列 、 信 号 灯 和 共享 内 存 (message queues, semaphores and shared 
memory) > RAV IPC 机 制 共 享 通用 的 认证 方式 。 进 程 只 能 通过 系统 调用 ， 传 
递 一 个 唯一 的 引用 标识 符 到 核心 来 访问 这 些 资源 。 对 于 系统 V IPC 对 象 的 访问 
的 检查 使 用 访问 许可 权 ， 很 象 对 于 文件 访问 的 检查 。 对 于 系统 V IPC 对 象 的 访 
问 权 限 由 对 象 的 创建 者 通过 系统 调用 创建 。 每 一 种 机 制 都 使 用 对 象 的 引用 标识 
符 作 为 资源 表 的 索引 。 这 不 是 直接 的 索引 ， 需 要 一 些 操 作 来 产生 索引 。 


























































































































系统 中 表达 系统 V IPC 对 象 的 所 有 Linux 数 据 结 构 都 包括 一 个 ipc_perm 的 数据 结 
构 ， 包 括 了 创建 进程 的 用 户 和 组 标识 符 ， 对 于 这 个 对 象 的 访问 模式 〈 属 主 、 组 
和 其 他 ) 和 IPC 对 象 的 key。Key 用 作 定 位 系统 V IPC 对 象 的 引用 标识 符 的 方法 。 
支持 两 种 key: 公开 和 四 有 的 。 如 果 key 是 公开 的 ,那么 系统 中 的 任何 进程 ,只 要 
通过 了 权限 检查 ,就 可 以 找到 对 应 的 系统 V IPC 对 象 的 引用 标识 符 。 系 统 V IPC 对 
象 不 能 使 用 key 引 用 ， 必 须 使 用 它们 的 引用 标识 符 。 




























































































参见 include/linux/ipc.h 
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2. Message Queues 


(消息 队列 ) 
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消息 队列 允许 一 个 或 多 个 进程 写 消息 ， 一 个 或 多 个 进程 读 取 消息 。Linux 维 护 
了 一 系列 消息 队列 的 msgque 向 量 表 。 其 中 的 每 一 个 单元 都 指向 一 个 msqid_ds 
的 数据 结构 ， 完 整 描述 这 个 消息 队列 。 当 创建 消息 队列 的 时 候 ， 从 系统 内 存 中 
分 配 一 个 新 的 msqid_ds 的 数据 结构 并 插入 到 向 量 表 中 


每 一 个 msqid_ds 数 据 结构 都 包括 一 个 ipc_perm 的 数据 结构 和 进入 这 个 队列 的 消 
县 的 指针 。 画 外 ，Linux 保 留 队 列 的 改动 时 间 ， 例 如 上 次 队列 写 的 时 间 等 。 
Msqid_ds 队 列 也 包括 两 个 等 待 队列 : 一 个 用 于 向 消息 队列 写 ， 男 一 个 用 于 读 。 


参见 include/linux/msg.h 


msqid ds 


*msg las 
[Y 


*wwait 
*rwait 
msg_qnum 




















msg msg 


*msg next *msg next 
msg type msg type 
*msg spot *msg spot 
msg stime 2 Sti 

x fü 


msg ts 


msg sume 
msg ts 


| | 


msg ts message msg ts message 


| | 


—— a msg qnum — > 





Figure 5.2: System V IPC Message Queucs 











每 一 次 一 个 进程 试图 向 写 队列 写 消息 ， 它 的 有 效用 户 和 组 的 标识 符 就 要 和 队列 
的 ipc_perm 数 据 结构 的 模式 比较 。 如 果 进 程 可 以 想 这 个 队列 号 ， 则 消息 会 从 进 
程 的 地 址 空间 写 到 msg 数 据 结构 ， 放 到 消息 队列 的 最 后 。 人 消息 都 带 有 进 
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程 间 约定 的 ， 应 用 程序 指定 类 型 的 标记 。 但 是 ， 因 为 Linux 限 制 了 可 以 写 的 消 
县 的 数量 和 长 度 ， 可 能 会 没有 空间 容纳 消息 。 这 时 ， 进 程 会 被 放 到 消息 队列 的 
写 等 待 队 列 ， 然 后 调用 调度 程序 选择 一 个 新 的 进程 运行 。 当 一 个 或 多 个 消息 从 
这 个 消息 队列 中 读 出 去 的 时 候 会 被 唤醒 。 
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从 队列 中 读 是 一 个 相似 的 过 程 。 进 程 的 访问 权限 一 样 被 检查 。 一 个 读 进程 可 以 
选择 是 不 管 消息 的 类 型 从 队列 中 读 取 第 一 条 消息 还 是 选择 特殊 类 型 的 消息 。 如 
果 没 有 符合 条 件 的 消息 ， 读 进程 会 被 加 到 消息 队列 的 读 等 待 进程 ， 然 后 运行 调 
度 程 序 。 当 一 个 新 的 消息 写 到 队列 的 时 候 ， 这 个 进程 会 被 唤醒 ， 继 续 运 行 。 

















3. Semaphores 
信号灯) 











信号灯 最 简单 的 形式 就 是 内 存 中 一 个 位 置 ， 它 的 取 值 可 以 由 多 个 进程 检验 和 设 
。 检 验 和 设置 的 操作 ， 至 少 对 于 关联 的 每 一 个 进程 来 讲 ， 是 不 可 中 断 或 者 说 
有 原子 性 : 只 要 启动 就 不 能 中 止 。 检 验 和 设置 操作 的 结果 是 信号 灯 当 前 值 和 设 
值 的 和 和， 可 以 是 正 或 者 负 。 根据 测试 和 设置 操作 的 结果 ， 一 个 进程 可 能 必须 
睡眠 直到 信号 灯 的 值 被 另 一 个 进程 改变 。 信 和 号 灯 可 以 用 于 实现 重要 区 域 
(critical regions) ， 就 是 重要 的 代码 区 ， 同 一 时 刻 只 能 有 一 个 进程 运行 。 

























































































比如 你 有 许多 协作 的 进程 从 一 个 单一 的 数据 文件 读 写 记录 。 你 可 能 希望 对 文件 
的 访问 必须 严格 地 协调 。 你 可 以 使 用 一 个 信号 灯 ， 初 始 值 1， 在 文件 操作 的 代 
码 中 ， 加 入 两 个 信号 灯 操 作 ， 第 一 个 检查 并 把 信号 灯 的 值 减 小 ， 第 二 个 检查 并 
增加 它 。 访 问 文件 的 第 一 个 进程 试图 减 小 信号 灯 的 数值 ， 如 果 成 功 ， 信 号 灯 的 
取 值 成 为 0。 这 个 进程 现在 可 以 继续 运行 并 使 用 数据 文件 。 但 是 ， 如 果 为 一 个 
进程 需要 使 用 这 个 文件 ， 现 在 它 试图 减少 信号 灯 的 数值 ， 它 会 失败 因为 结果 会 
是 -1。 这 个 进程 会 被 挂 起 直到 第 一 个 进程 处 理 完 数据 文件 。 当 第 一 个 进程 处 理 
完 数 据 文件 ， 它 会 增加 信号 灯 的 数值 成 为 1。 现 在 等 竺 进程 会 被 唤醒 ， 这 次 它 
减 小 信号 灯 的 尝试 会 成 功 。 
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semid ds 







sem. base 
sem pending 
sem. pending. last 
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array of 
semaphores 









sem queue 


[mx — 


sem undo [pev — — 





Dudo —3] 
[wm — [pd — 
semadj 

^ 


Figure 5. 





ma 


Dp — 
Emo — 





à: System V IPC Semaphores 


每 一 个 系统 V IPC 信 和 号 灯 对 象 都 描述 了 一 个 信号 灯 数 组 ，Linux 使 用 semid_ds 数 
据 结构 表达 它 。 系 统 中 所 有 的 semid_ds 数 据 结构 都 由 semary 指 针 向 量 表 指 
向 。 每 一 个 信号 灯 数 组 中 都 有 sem_nsems， 通 过 sem_base 指 向 的 一 个 sem 数 
据 结 构 来 描述 。 所 有 人 允许 操作 一 个 系统 V IPC 信 号 灯 对 象 的 信号 灯 数 组 的 进程 
都 可 以 通过 系统 调用 对 它们 操作 。 系 统 调用 可 以 指定 多 种 操作 ， 每 一 种 操作 多 


















































用 三 个 输入 描述 ， 信 号 灯 索 引 、 操 作 值 和 一 组 标志 。 信 号 灯 索 引 是 信号 灯 数 组 








的 索引 ， 操 作 值 是 要 增加 到 当前 信号 灯 取 值 的 数值 。 首 先 ，Linux 检 查 所 有 的 
操作 是 否 成 功 。 只 有 操作 数 加 上 信号 灯 的 当前 值 大 于 0 或 者 操作 值 和 信号灯 的 
当前 值 都 是 0， 操 作 才 算 成 功 。 如 果 任 意 信号 灯 操 作 失 败 ， 只 要 操作 标记 不 要 
求 系统 调用 无 阻塞 ，Linux 会 挂 起 这 个 进程 。 如 果 进 程 要 挂 起 ，Linux 必 须 保 存 
要 进行 的 信号 灯 操 作 的 状态 并 把 当前 进程 放 到 等 待 队 列 重 。 它 通过 在 堆栈 中 建 
立 一 个 sem_queue 的 数据 结构 并 填 满 它 来 实现 上 述 过 程 。 这 个 新 的 sem_queue 








数据 结构 被 放 到 了 这 个 信 
sem_pending_last 指 针 ) . 























号 灯 对 象 的 等 待 队列 的 结尾 《使 用 sem_pending 和 
当前 进程 被 放 到 了 这 个 sem_queue 数 据 结构 的 等 待 














队列 中 Csleeper) ， 调 用 调度 程序 ， 运 行 另 外 一 个 进程 。 


2 Winclude/linux/sem.h 


如 果 所 有 的 信号 灯 操 作 都 成 功 ， 当 前 的 进程 就 不 需要 被 挂 起 。Linux 继 续 向 前 
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并 把 这 些 操作 应 用 到 信号 灯 数 组 的 合适 的 成 员 上 。 现 在 Linux 必 须 检查 任何 用 
眠 或 者 挂 起 的 进程 ， 它 们 的 操作 现在 可 能 可 以 实施 。Linux 顺 序 查找 操作 等 竺 
队列 (sem. pending) 中 的 每 一 个 成 员 ， 检 查 现在 它 的 信号 灯 操 作 是 否 可 以 成 
功 。 如 果 可 以 它 就 把 这 个 sem_queue 数 据 结构 从 操作 等 待 表 中 删除 ， 并 把 这 种 
信号 灯 操 作 应 用 到 信号 灯 数 组 。 它 唤醒 睡眠 的 进程 ， 让 它 在 下 次 调度 程序 运行 
的 时 候 可 以 继续 运行 。Linux 从 头 到 尾 检查 等 待 队列 ， 直 到 不 能 执行 信号 灯 操 
作 无 法 唤醒 更 多 的 进程 为 止 。 


































































































在 信号 灯 操 作 中 有 一 个 问题 : 死 锁 (deadlock) 。 这 发 生 在 一 个 进程 改变 了 信 
号 灯 的 值 进 入 一 个 重要 区 域 (critical region) 但 是 因为 骨 泪 或 者 被 kill 而 没有 离 
开 这 个 重要 区 域 的 情况 下 。Linux 通 过 维护 信号 灯 数 组 的 调整 表 来 避免 这 种 情 
况 。 就 是 如 果实 施 这 些 调整 ， 信 号 灯 就 会 返回 一 个 进程 的 信号 灯 操 作 前 的 状 
态 。 这 些 调整 放 在 sem_undo 数 据 结 构 中 ， 排 在 sem_ds 数 据 结构 的 队列 中 ， 同 
时 排 在 使 用 这 些 信 号 灯 的 进程 的 task_struct 数 据 结构 的 队列 中 。 












































每 一 个 独立 的 信号 灯 操 作 可 能 都 需要 维护 一 个 调整 动作 。Linux 至 少 为 每 一 个 
进程 的 每 一 个 信号 灯 数 组 都 维护 一 个 sem_undo 的 数据 结构 。 如 果 请 求 的 进程 
没有 ， 就 在 需要 的 时 候 为 它 创 建 一 个 。 这 个 新 的 sem_undo 数 据 结 构 同时 在 进 
程 的 task_struct 数 据 结 构 和 信号 灯 队 列 的 semid_ds 数 据 结 构 的 队列 中 排队 。 对 
信号 灯 队 列 中 的 信号 灯 执 行 操作 的 时 候 ， 和 这 个 操作 值 相 抵消 的 值 加 到 这 个 进 
程 的 sem_undo 数 据 结 构 的 调整 队列 这 个 信号 灯 的 条 目 上 。 所 以 ， 如 果 操 作 值 
为 2， 那 么 这 个 就 在 这 个 信号灯 的 调整 条 目 上 增加 -2。 
































当 进 程 被 删除 ， 比 如 退出 的 时 候 ，Linux 遍 历 它 的 sem_undo 数 据 结构 组 ， 并 实 
施 对 于 信号 灯 数 组 的 调整 。 如 果 删 除 信 号 灯 ， 它 的 sem_undo 数 据 结构 仍旧 停 
留 在 进程 的 task_struct 队 列 中 ， 但 是 相应 的 信号 灯 数 组 标识 符 标 记 为 无 效 。 这 
种 情况 下 ， 清 除 信号 灯 的 代码 只 是 简单 地 废弃 这 个 sem_undo 数 据 结构 。 




















4. Shared Memory 
(共享 内 存 ) 











共享 内 存 允 许 一 个 或 多 个 进程 通过 同时 出 现在 它们 的 虚拟 地 址 空间 的 内 存 通讯 。 这 块 虚拟 内 存 
的 页 面 在 每 一 个 共享 进程 的 页 表 中 都 有 页 表 条 目 引 用 。 但 是 不 需要 在 所 有 进程 的 虚拟 内 存 都 有 
相同 的 地 址 。 象 所 有 的 系统 V IPC 对 象 一 样 ， 对 于 共享 内 存 区 域 的 访问 通过 key 控 制 ， 并 进行 访 
问 权 限 检查 。 内 存 共 享 之 后 ， 就 不 再 检查 进程 如 何 使 用 这 块 内 存 。 它 们 必须 依赖 于 其 他 机 制 ， 
比如 系统 V 的 信号 灯 来 同步 对 于 内 存 的 访问 。 
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每 一 个 新 创建 的 内 存 区 域 都 用 一 个 shmid_ds 数 据 结 构 来 表达 。 这 些 数 据 结 构 保 存在 shm_segs 疝 
量 表 中 。Shmid_ ds 数据 结构 描述 了 这 个 共享 内 存 取 有 多 大 、 多 少 个 进程 在 使 用 它 以 及 共享 内 存 
如 何 映射 到 它们 的 地 址 空间 。 由 共享 内 存 的 创建 者 来 控制 对 于 这 块 内 存 的 访问 权限 和 它 的 key 是 
公开 或 私有 。 如 果 有 足够 的 权限 它 也 可 以 把 共享 内 存 锁 定 在 物理 内 存 中 。 


参见 include/linux/sem.h 


























每 一 个 希望 共享 这 块 内 存 的 进程 必须 通过 系统 调用 粘 附 Cattacho. 到 虚拟 内 存 。 这 为 该 进程 创 
建 了 一 个 新 的 描述 这 块 共享 内 存 的 vm_area_struct 数 据 结构 。 进 程 可 以 选择 共享 内 存在 它 的 虚拟 
地 址 空间 的 位 置 或 者 由 Linux 选 择 一 块 足够 的 的 空闲 区 域 。 
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Figure 5,4: System V IPC Shared Memory 


这 个 新 I] vm area struct 结 构 放 在 由 shmid ds 指向 的 vm_ area struct 7i] # rp, Wit 
vm_next_shared 和 vm_prev_shared 把 它们 连 在 一 起 。 虚 拟 内 存在 粘 附 的 时 候 其 实 并 没有 创建 ， 
而 发 生 在 第 一 个 进程 试图 访问 它 的 时 候 。 


在 一 个 进程 第 一 次 访问 共享 虚拟 内 存 的 其 中 一 页 的 时 候 ， 发 生 一 个 page fault。 当 Linux 处 理 这 个 
page fault 的 时 候 ， 它 找到 描述 它 的 vm_area_struct 数 据 结构 。 这 里 包含 了 这 类 共享 虚拟 内 存 的 
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处 理 例 程 的 指针 。 共 享 内 存 的 page fault 处 理 代 码 在 这 个 shmid_ds 的 页 表 条 目 列表 中 查找 ， 看 是 
否 存在 这 个 共享 虚拟 内 存 页 的 条 目 。 如 果 不 存在 ， 它 就 分 配 一 个 物理 页 ， 并 为 它 创建 一 个 页 表 
条 目 。 这 个 条 目 不 但 进入 当前 进程 的 页 表 ， 也 存 到 这 个 shmid_ds。 这 意味 着 当下 一 个 进程 试图 
访问 这 块 内 存 并 得 到 一 个 page fault 的 时 候 ， 共 享 内 存 错 误 处 理 代 码 也 会 让 这 个 进程 使 用 这 个 新 
创建 的 物理 页 。 所 以 ， 是 第 一 个 访问 共享 内 存 页 的 进程 使 得 这 一 页 被 创建 ， 而 随后 访问 的 其 他 
进程 使 得 此 页 被 加 到 它们 的 虚拟 地 址 空间 。 
































当 进 程 不 再 需要 共享 虚拟 内 存 的 时 候 ， 它 们 从 中 分 离 〈detach) 出来。 只 要 仍旧 有 其 他 进程 在 
使 用 这 块 内 存 ， 这 种 分 离 只 是 影响 当前 的 进程 。 它 的 vm_area_struct 从 shmid_ds 数 据 结构 中 删 
除 ， 并 释放 。 当 前 进程 的 页 表 也 进行 更 新 ， 使 它 共 享 过 的 虚拟 内 存 区 域 无 效 。 当 共享 这 块 内 存 
的 最 后 一 个 进程 从 中 分 离 出 的 时 候 ， 共 享 内 存 当 前 在 物理 内 存 中 的 页 被 释放 ， 这 块 共享 内 存 的 
shmid_ds 数 据 结构 也 被 释放 。 












































如 果 共 享 的 虚拟 内 存 没有 被 锁定 在 物理 内 存 中 的 话 会 更 加 复杂 。 在 这 种 情况 下 ， 共 享 内 存 的 页 











可 能 在 系统 大 量 使 














日 内存 的 时 候 交 换 到 了 系统 的 交换 磁盘 。 共 享 内 存 如 何 交 换 初 和 交换 入 物理 


内 存在 第 3 章 中 有 描述 。 


Chapter 6 


PCI 








Peripheral Component Interconnect (PCI〉， 好 像 它 的 名 字 上 暗示 的 一 样 ， 是 描述 如 何 通 过 一 个 结 
构 化 和 可 控制 的 方式 把 系统 中 的 外 设 组 件 连接 起 来 的 一 个 标准 。 标 准 的 PCI Local Bus 规 范 描 述 














了 系统 组 件 电气 连接 的 方法 和 它们 行为 的 方法 。 本 章 探讨 Linux 核 心 如 何 初 始 化 系统 的 PCI 总 线 和 


设备 。 
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Figure 6.1: Example PCI Based System 





图 6.1 是 一 个 PCI 基 础 的 系统 的 逻辑 图 。PCI 总 线 和 PCI-PCI 桥 (bridge) 是 系统 组 件 联系 在 一 起 的 
粘 合 剂 。CUP 和 video 设 备 连 在 主要 的 PCI 总 线 ，PCI 总 线 0。 一 个 特殊 的 PCI 设 备 ，PCHPCI 桥 把 主 
总 线 连接 到 次 PC 总 线 ，PCI 总 线 1。 按 照 PCI 规 范 的 术语 ，PCI 总 线 1 描 述 成 为 PCHPCI 桥 的 下 游 而 
PC 总线 0 是 桥 的 上 游 。 连 接 在 次 PCI 总 线 上 的 是 系统 的 SCSI 和 以 太 网 设备 。 物 理 上 桥 、 次 要 PCI 
总 线 和 这 两 种 设备 可 以 在 同一 块 PCI 卡 上 。 系 统 中 的 PCI-ISA 桥 文 持 老 的 、 遗 留 的 ISA 设 备 ， 本 图 
显示 了 一 个 超级 MO 控制 芯片 ， 控 制 键盘 、 鼠 标 和 软驱 。 











6.1 PCI Address Space (PCIl 地 址 空间 ) 





CPU 和 PCI 设 备 需要 访问 它们 所 共享 的 内 存 。 这 些 内 存 让 设备 驱动 程序 控制 这 些 PCI 设 备 并 在 它 
们 之 间 传 递 信息 。 一 般 地 共享 的 内 存 包 括 设备 的 控制 和 状态 寄存 器 。 这 些 寄存 器 用 于 控制 设备 
和 读 取 它 的 状态 。 例 如 : PCI SCSI 设 备 驱 动 程序 可 以 读 取 SCSI 设 备 的 状态 寄存 器 ， 判 断 它 是 否 
可 以 向 SCSI 磁 盘 写 一 块 信 息 。 或 者 它 可 以 写 入 控制 寄存 器 让 它 关 闭 的 设备 开始 运行 。 















































CPU 的 使 用 的 系统 内 存 可 以 用 作 这 种 共享 内 存 ， 但 是 如 果 这 样 的 话 ， 每 一 次 PCI 设 备 访问 内 
存 ，CPU 都 不 得 不 停顿 ， 等 待 PCI 设 备 完成 。 对 于 内 存 的 访问 通常 有 限制 ， 同 一 时 间 只 能 有 一 个 
系统 组 件 允 许 访 问 。 这 会 使 得 系统 速度 降低 。 人 允许 系统 的 外 部 设备 在 一 个 不 受 控 的 方式 下 访问 
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主 内 存 也 不 是 一 个 好 主意 。 这 会 非常 危险 : 一 个 恶意 的 设备 会 让 系统 非常 不 稳定 。 


外 部 设备 由 它们 自己 的 内 存 空间 。CPU 可 以 访问 这 些 空间 ， 但 是 设备 对 于 系统 内 存 的 访问 受到 
严格 的 控制 ， 必 须 通 过 DMA (Direct Memory Access 直 接 内 存 存 取 ) 通道 。ISA 设 备 可 以 访问 两 
种 地 址 空间 : ISA 1/0 “〈 输 入/ 输出) 和 ISA 内 存 。PCI 由 三 中 : PCI MO、PCI 内 存 和 PCI 配 置 空 间 
(configuration space) 。CPU 可 以 访问 所 有 的 地 址 空间 其 中 PCI MO 和 PCI 内 存 地 址 空间 由 设备 
驱动 程序 使 用 而 PC 配置 空间 由 Linux 和 心中 的 PCI 初 始 化 代码 使 用 。 

































































Alpha AXP 处 理 器 没有 对 于 除了 系统 地 址 空间 之 外 的 地 址 空间 的 天 生 的 访问 模式 。 它 需要 使 用 文 
才 蔚 片 来 访问 象 PC 配置 空间 这 样 的 其 他 地 址 空间 。 它 使 用 了 一 个 地 址 空间 的 映射 方案 ， 从 巨大 
的 虚拟 地 址 空间 中 偷 出 一 部 分 映射 到 PCI 地 址 空间 。 




















6.2 PCI Configuration Headers (PCI 配 置 头 ) 


系统 中 的 每 一 个 PCI 设 备 ， 包 括 PCHPCI 桥 都 由 一 个 配置 数据 结构 ， 位 于 PCI 配 置地 址 空间 中 。PoCI 
配置 头 允 许 系统 识别 和 控制 设备 。 这 个 头 位 于 PCI 配 置地 址 空间 的 确切 位 置 依赖 于 设备 使 用 的 
PCl 拓 扑 。 例 如 ， 插 在 PC 主板 一 个 PCI 覃 位 的 一 个 PCI 显 示 卡 配置 头 会 在 一 个 位 置 ， 而 如 果 它 被 插 
到 另 一 个 PCI 槽 位 则 它 的 头 会 出 现在 PCI 配 置 内 存 中 的 另 一 个 位 置 。 但 是 不 管 这 些 PCI 设 备 和 桥 在 
什么 位 置 ， 系 统 都 可 以 发 现 并 使 用 它们 配置 头 中 的 状态 和 配置 寄存 器 来 配置 它们 。 












































通常 ， 系 统 的 设计 使 得 每 一 个 PCI 槽 位 的 PCI 配 置 头 都 有 一 个 和 它 在 板 上 的 覃 位 相关 的 偏 移 量 。 
所 以 ， 举 例 来 说 ， 板 上 的 第 一 个 槽 位 的 PCI 配 置 可 能 位 于 偏 移 0 而 第 二 个 槽 位 的 在 偏 移 256 所 
有 的 头 都 一 样 长 度 ，256 字 节 ) ， 依 此 类 推 。 定 义 了 系统 相关 的 硬件 机 制 使 得 PCl 配 置 代码 可 以 
尝试 检查 一 个 给 定 的 PCI 总 线 上 的 所 有 可 能 的 PC 配置 头 ， 试 图 读 取 头 中 的 一 个 域 〈 通 常 是 
Vendor Identification 域 ) 得 到 一 些 错误 ， 从 而 知道 那些 设备 存在 而 那些 设备 不 存在 。PCI Local 
Bus 规 范 描 述 了 一 种 可 能 的 错误 信息 : 试图 读 取 一 个 空 的 PCI 覃 位 的 Verdor Identificationfll Device 
Indentification 域 时 候 返 回 OxFFFFFFFF。 
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Figure 6.2: The PCI Configuration Header 





图 6.2 显 示 了 256 字 节 的 PC 配置 头 的 布局 。 它 包括 以 下 域 : 


参见 include/linux/pci.h 


Vendor Identification 唯一 的 数字 ， 描 述 这 个 PCI 设 备 的 发 明 者 。Digital 的 PCI Vendor 
Identification 是 Ox1011 而 Intel 是 O0x8086。 





Device Identification 描述 设备 自身 的 唯一 数字 。 例 如 Digital 的 21141 快 速 以 太 网 设备 的 设备 标 
识 符 是 0x0009。 


Status 此 域 给 除了 设备 的 状态 ， 它 的 位 的 含义 由 PCI Local Bus 规 范 规 定 。 





Command 系统 通过 写 这 个 域 控 制 这 个 设备 。 例 如 : 允许 设备 访问 PCI MO 内 存 。 
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Class Code 标识 了 设备 的 类 型 。 对 于 每 一 种 设备 都 有 标准 分 类 : 显示 、SCSI 等 等 。 对 于 SCSI 的 
类 型 编码 是 0x0100。 






































Base Address Registers 这 些 寄 在 器 用 于 确定 和 分 配 设备 可 以 使 用 的 PCI MO 和 PCI 内 存 的 类 型 、 
大 小 和 位 


Interrupt Pin PCI 卡 的 物理 管 脚 中 的 4 个 用 于 向 PCI 总 线 传递 中 断 。 标 准 中 把 它们 标记 为 A、B、C 
TID. Interrupt Pin 域 描述 了 这 个 PCI 设 备 使 用 那个 管 脚 。 通 常 对 于 一 个 设备 来 说 这 时 硬件 决定 
的 。 就 是 说 每 一 次 系统 启动 的 时 候 ， 这 个 设备 都 使 用 同一 个 中 断 管 脚 。 这 些 信 息 允 许 中 断 处 理 
子 系统 管理 这 些 设 备 的 中 断 。 


Interrupt Line PCI 配 置 头 中 的 Interrupt Line 域 用 于 在 PCI 初 始 化 代码 、 设 备 驱动 程序 和 Linux 的 中 
断 处 理子 系统 之 间 传 递 中 断 控 制 。 写 在 这 里 的 数字 对 于 设备 驱动 程序 来 讲 是 没有 意义 的 ， 但 是 
它 可 以 让 中 断 处 理 程 序 正 确 地 把 一 个 中 断 从 PCI 设 备 发 送 到 Linux 操 作 系 统 中 正确 的 设备 驱动 程序 
的 中 断 处 理 代码 处 。Linux 如 何 处 理 中 断 参看 第 7 章 。 













































































6.3 PCI I/O and PCI Memory Address (PCI MO 和 PCI 内 存 地 址 ) 














这 两 种 地 址 空间 用 于 设备 和 CPU 上 运行 的 Linux 核 心 的 它们 的 设备 驱动 程序 通讯 。 例 如 : DECchip 
21141 快 速 以 太 网 设备 把 它 的 内 部 寄存 器 映射 到 了 PCI MO 空间 。 然 后 它 的 Linux 设 备 张 动 程序 通 
过 读 写 这 些 寄 存 器 来 控制 设备 。 显 示 驱 动 程序 通常 使 用 大 量 的 PCI 内 存 空间 来 放置 显示 信息 。 






































直到 PCI 系 统 建立 起 来 并 使 用 PC 配置 头 中 的 Command 域 打开 了 设备 对 于 这 些 地 址 空间 的 访问 为 
止 ， 设 备 都 无 法 访问 这 些 空 间 。 应 该 注意 的 是 只 有 PCI 配 置 代码 读 写 PCI 配 置地 址 ，Linux 的 设备 
驱动 程序 只 是 读 写 PCI I/O0 和 PCI 内 存 地 址 。 

















6.4 PCI-ISA Bridges (PCIISA 桥 ) 














这 种 桥 把 对 于 PCI MO 和 PCI 内 存 地 址 空间 的 访问 转换 成 为 ISA MO 和 1ISA 内 存 访 问 ， 用 来 支持 ISA 设 
备 。 现 在 销售 的 多 数 系统 都 包括 几 个 ISA 总 线 插 槽 和 几 个 PCI 总 线 插 槽 。 这 种 向 后 的 兼容 的 需要 
会 不 断 减少 ， 将 来 会 有 只 有 PCI 的 系统 。 在 早期 的 Intel 8080 基 础 的 PC 时 代 ， 系 统 中 的 ISA 设 备 的 
ISA 地 址 空间 〈IMO 和 内 存 ) 就 被 固定 下 来 。 甚 至 一 个 S5000 Alpha AXP 基 础 的 计算 机 系统 的 ISA 
软驱 驱动 器 的 ISA 1/0 地 址 也 会 和 第 一 台 IBM PC 一 样 。PCI 规 范 保 留 了 PCI /0 和 PCI 内 存 的 地 址 空 
间 中 的 较 低 的 区 域 保留 给 系统 中 的 ISA 外 设 并 使 用 一 个 PCLISA 桥 把 所 有 对 于 这 些 区 域 的 PCI 内 存 
访问 转换 为 ISA 访 问 。 


























65 of 212 04/21/2011 11:34 AM 





Linux Kernel 核 心中 文 手 册 file:///media/7C88B4DC88B495DC/redbatzero/ linux 3 TZ 5... 





1110 87 210 





Figure 6.3: Type 0 PCI Configuration Cycle 
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ligure 6.1: Type 1 PCI Configuration Cycle 


6.5 PCI-PCI Bridges (PCI-PCI 桥 ) 


PCHPCI 桥 是 特殊 的 PCI 设 备 ， 把 系统 中 的 PCI 总 线 粘 和 在 一 起 。 简 单 系统 中 只 有 一 个 PCI 总 线 ， 当 
时 单个 PCI 总 线 可 以 支持 的 PCI 设 备 的 数量 有 电气 限制 。 使 用 PCI-PCI| 桥 增加 更 多 的 PCI 总 线 允 许 系 
统 支 持 更 多 的 PCIl 设 备 。 这 对 于 高 性 能 的 服务 器 尤其 重要 。 当 然 ，Linux 完 全 支持 使 用 PCI-PCI 桥 
的 使 用 。 






































6.5.1 PCI-PCI Bridges: PCI I/O and PCI Memory Windows 





PCHPCI 桥 只 向 下 游 传递 对 于 PCI MO 和 PCI 内 存 读 和 写 的 一 个 子 集 。 例 如 在 图 6.1 中 ， 只 有 读 和 写 
的 地 址 属于 SCSI 或 者 以 太 网 设备 的 时 候 PCIPCI 桥 才 会 把 读 写 的 地 址 从 PC 总线 0 传递 到 总 线 1， 
其 余 的 都 被 忽略 。 这 种 过 滤 阻 止 了 不 必要 的 地 址 信息 遍历 系统 。 为 了 达到 这 个 目的 ，PCHPCI 桥 
必须 编程 设置 它们 必须 从 主 总 线 向 次 总 线 通过 的 PCI MO 和 PCI 内 存 地 址 空间 访问 的 基础 Coase) 
和 限制 。 一 旦 系统 中 的 PCHPCI 桥 设置 好 ， 只 要 Linux 设 备 驱动 程序 只 是 通过 这 些 窗口 存 取 PCI 1/0 
和 PCI 内 存 空间 ，PCHPCI 桥 是 不 可 见 的 。 这 是 个 重要 的 特性 ， 使 得 Linux 的 PCI 设 备 驱动 程序 的 作 
者 的 日 子 好 过 了 。 但 是 它 也 让 Linux 下 的 PCI-PCI 桥 在 一 定 程度 上 需要 技巧 才能 配置 ， 我 们 不 久 就 
会 看 到 。 





























6.5.2 PCI-PCI Bridges: PCI Configuration Cycles and PCI Bus Numbering (PCI-PCI 桥 : PCI 配 置 
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cycle 和 PCI 总 线 编号 ) 














既然 CPU 的 PCI 初 始 化 代码 可 以 定位 不 在 主 PCI 总 线 上 的 设备 ， 必 须 有 一 种 机 制 使 得 桥 可 以 决定 
是 否 把 配置 cycle 从 它 的 主 接口 传递 到 次 接口 上 。 一 个 cycle 就 是 它 显 示 在 PCI 总 线 上 的 地 址 。POCI 
规范 定义 了 两 种 PCI 地 址 配置 格式 : 类 型 0 和 类 型 1， 分 别 在 图 6.3 和 图 6.4 中 显示 。 类 型 0 的 PCI 配 
cycle 不 包含 总 线 号 ， 被 这 个 PCI 总 线 上 的 所 有 的 PCI 设 备 解释 用 于 PCI 地 址 配置 。 配 置 cycle 的 位 
32: 11 看 作 是 设备 选择 域 。 设 计 系 统 的 一 个 方法 是 让 每 一 个 位 选择 一 个 不 同 的 设备 。 这 种 情况 
下 为 11 可 能 选择 槽 位 0 的 PCI 设 备 ， 位 12 选 择 槽 位 1 的 PCI 设 备 ， 依 此 类 推 。 另 一 种 方法 是 把 设备 
的 槽 位 号 直接 写 到 位 31: 11 中 。 一 个 系统 使 用 哪 一 种 机 制 依赖 于 系统 的 PCI 内 存 控制 器 。 





















































类 型 1 的 PC 配置 cycle 包 括 一 个 PCI 总 线 号 ， 这 种 配置 循环 被 除了 PCHPCI 桥 之 外 的 所 有 PCI 设 备 忽 
。 所 有 看 到 了 类 型 1 的 PCI 配 置 cycle 的 PCHPCI 桥 都 可 以 把 这 些 信息 向 它们 的 下 游 传 送 。 一 个 
PCHPCI 桥 是 否 包 略 PC 配置 循环 或 者 向 它 的 下 游 传递 ， 依 赖 于 这 个 桥 是 如 何 配置 的 。 每 一 个 PCL 
PCI 桥 都 有 一 个 主 总 线 接口 号 和 一 个 次 总 线 接口 号 。 主 总 线 接口 离 CPU 最 近 而 次 总 线 接口 是 离 
CPU 最 远 的 。 每 一 个 PCLPCI 桥 都 还 有 一 个 附属 总 线 编号 ， 这 是 在 第 二 个 总 线 接口 之 外 可 以 桥接 
的 最 大 的 PCI 总 线 数目 。 或 者 说 ， 附 属 总 线 编号 是 PCHPCI 桥 下 游 的 最 大 的 PC 总线 编号 。 当 PCL 
PCI 桥 看 到 一 个 类 型 1 的 PC 配置 cycle 的 时 候 ， 它 做 以 下 事情 
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如 果 指 定 的 总 线 编号 不 在 桥 的 次 总 线 编号 和 总 线 的 附属 编号 之 间 就 忽略 它 。 
如 果 指 定 的 总 线 编号 和 桥 的 次 总 线 编号 符合 就 把 它 转变 成 为 类 型 0 的 配置 命令 


如 果 指 定 的 总 线 编号 大 于 次 要 总 线 编号 而 小 于 或 等 于 附属 总 线 编号 ， 就 不 改变 地 传递 到 次 要 总 
线 接 口上 。 











































































































所 以 ， 如 果 我 们 希望 寻 址 图 6.9 的 拓扑 中 总 线 3 上 的 设备 1， 我 们 必须 从 CPU 生成 一 个 类 型 1 的 本 
命令 。 桥 1 不 改变 地 传递 到 总 线 1， 桥 2 忽略 它 但 是 桥 3 把 它 转换 成 一 个 类 型 0 的 配置 命令 ， 并 
把 它 发 送 到 总 线 3， 使 设备 1 响应 它 。 


每 一 个 独立 的 操作 系统 负责 在 PC 配置 阶段 分 配 总 线 编号 ， 但 是 不 管 使 用 哪 一 种 编码 方案 ， 对 于 
系统 中 所 有 的 PCFPCI 桥 ， 以 下 陈述 都 必须 是 正确 的 : 


所 有 位 于 一 个 PCI-PCI 桥 后 面 的 PC 总 线 的 编码 都 必须 在 次 总 线 编号 和 附属 总 线 编号 之 间 《〈 包 含 ) 




















































































































如 果 违 背 了 这 条 规则 ， 则 PCLHPCI 桥 将 无 法 正确 地 传递 和 转换 类 型 1 的 PC 配置 cycle， 系 统 无 法 成 
功 地 找到 并 初始 化 系统 中 的 PCl 设 备 。 为 了 完成 编码 方案 ，Linux 按 照 特 定 的 顺序 配置 这 些 特殊 设 
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Ko 6.6.2 T1] T Linux PCI 桥 和 总 线 编码 方案 的 描述 以 及 一 个 可 以 工作 的 例子 。 
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pci root 
一 -和 
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bus bus bus 
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PCHISA Bridge 






Video PCI-PCI Bridge 


pci, bus 
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bus bus 
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SCSI Ethernet 


Figure 6.5: Linux Kernel PCI Data Structures 


6.6 Linux PCI Initialization (Linux PCI 初 始 化 过 程 ) 


Linux 中 PCI 初 始 化 代码 分 为 三 个 逻辑 部 分 : 
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PCI Device Driver 这 个 伪 设 备 驱 动 程序 从 总 线 0 开 始 查 找 PCI 系 统 ， 定 位 系统 中 所 有 的 PCI 设 备 和 
桥 。 它 建立 一 链接 的 数据 结构 的 列表 ， 描 述 系 统 的 拓扑 。 另 外 ， 它 还 为 系统 中 所 有 的 桥 编码 。 





























参见 drivers/pci/pci.c and include/linux/pci.h 





PCI BIOS 这 个 软件 层 提 供 了 PCI BIOS ROOM 规范 中 描述 的 服务 。 即 使 Alpha AXP 没 有 BIOS 服 务 ， 
在 Linux 核 心 也 有 提供 了 相同 的 功能 的 等 价 代码 。 





参见 arch/*/kernel/bios32.c 
PCI Fixup 系统 相关 的 整理 代码 ， 整 理 和 系统 相关 的 在 PCI 初 始 化 最 后 的 内 存 玻 松 的 情况 。 


参见 arch/*/kernel/bios32.c 


6.6.1 Linux Kernel PCI Data Structures (Linux 核 心 的 PCIl 数 据 结构 ) 


当 Linux 核 心 初始 化 PCI 系 统 的 时 候 它 建立 反映 系统 真实 的 PCI 拓 扑 结 构 的 数据 结构 。 图 6.5 显 示 了 
数据 结构 之 间 的 关系 ， 它 用 来 描述 了 图 6.1 中 示例 的 PCI 系 统 。 



































每 一 个 PCI 设 备 〈 包 括 PCHPCI 桥 ) 都 用 一 个 pci_dev 的 数据 结构 描述 。 每 一 个 PCI 总 线 用 一 个 
pci_bus 的 数据 结构 描述 。 结 果 是 一 个 PCI 总 线 的 树 型 结构 ， 每 一 个 总 线 上 有 粘 附着 一 些 子 PCI 设 
备 。 因 为 一 个 PCIl 总 线 只 能 通过 PCI-PCI| 桥 达到 (除了 主 PCIl 总 线 ， 总 线 0) ， 每 一 个 pci_bus 都 包 
括 一 个 它 要 通过 的 PCI 设 备 的 指针 (这 个 PCI-PCI 桥 〉。 这 个 PCI 设 备 是 这 个 PCl 总 线 的 父 总 线 的 一 
个 子 设备 。 








图 6.5 中 没有 显示 的 还 有 一 个 指向 系统 中 所 有 的 PCI 设 备 的 指针 : pci_devices。 系 统 中 所 有 的 PCI 
设备 的 pci_dev 的 数据 结构 都 排 在 这 个 队列 中 。Linux 核 心 使 用 这 个 队列 快速 查找 系统 中 所 有 的 
PCI 设 备 。 


























6.6.2 The PCI Device Driver (PCI 设备 驱动 程序 ) 























PCI 设 备 驱 动 程序 完全 不 是 一 个 真正 的 设备 驱动 程序 ， 只 是 系统 初始 化 的 时 候 操 作 系 统 调用 的 一 
个 函数 。PCI 初 始 化 代码 必须 扫描 系统 中 所 有 的 PCI 总 线 ， 查 找 系统 中 所 有 的 PCI 设 备 〈 包 括 PCL 
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PCI 桥 接 设 备 ) 。 它 使 用 PCI BIOS 代 码 来 查看 它 当前 扫描 的 PCI 总 线 上 的 每 一 个 可 能 的 模 位 是 否 
被 占用 。 如 果 这 个 PCI 槽 位 占用 ， 它 就 建立 一 个 描述 这 个 设备 的 pci_dev 数 据 结构 ， 并 把 它 链接 到 
已 知 PCIl 设 备 的 列表 中 (由 pci_deivices 指 向 ) 。 
































参见 drivers/pci/pci.c Scan bus() 


PCI 初 始 化 代码 从 PCI 总 线 0 开 始 扫 描 。 它 试图 读 出 每 一 个 可 能 的 PCI 槽 位 中 每 一 个 可 能 的 PC 设备 
的 Vendor Identification 和 Device Identification 域 。 当 它 找到 了 占用 的 槽 位 它 就 建立 一 个 pci_dev 数 
据 结构 来 描述 它 。PCI 初 始 化 代码 所 建立 的 所 有 的 pci_dev 数 据 结 构 〈 包 括 所 有 的 PCFPCI 桥 ) 都 
链接 到 一 个 链接 表 : pci devices. 

















如 果 找 到 的 设备 是 一 个 PCI-PCI 桥 ， 则 建立 一 个 pci_bus 的 数据 结构 ， 并 链接 到 pci_root 指 向 的 由 
pci_bus 和 pci_dev 数 据 结构 组 成 的 树 上 。PCI 的 初始 代码 可 以 判断 PCI 设 备 是 否 PCI-PCI 桥 ， 因 为 它 
的 分 类 编码 Cclass code) 是 0x060400。 然 后 Linux 核 心 配置 它 刚 刚 找 到 的 PCI-PCI 桥 的 另 一 端的 
POL k (下游)。 如 果 找 到 更 多 的 PCI-PCI 桥 ， 它 们 都 一 样 被 配置 。 这 个 过 程 成 为 深度 
(depthwize) 算法: 系统 在 宽度 搜索 之 前 先 在 深度 展开 。 看 图 6.1，Linux 会 首先 配置 PCI 总 线 1 
和 它 的 以 太 网 和 SCSI 设 备 ， 然 后 配置 PCI 总 线 O 上 的 显示 设备 。 





















































在 Linux 向 下 游 查找 PCIl 总 线 的 时 候 它 必须 配 
在 下 面 的 6.6.2 节 详细 描述 : 


介入 的 PCHPCI 桥 的 次 总 线 和 附属 总 线 编号 。 这 些 











Configuring PCI-PCI Bridges — Assigning PCI Bus Numbers 〈 配 置 PCHPCI 桥 -分 配 PCI 总 线 编号 ) 














对 于 传送 通过 它们 进行 的 PCI MO、PCI 内 存 或 者 PC 配置 地 址 空间 的 读 写 ，PCLPCI 桥 必须 直到 以 
下 : 





Primary Bus Number 刚好 在 PCI-PCI 桥 上 游 的 总 线 编号 


RI 

















Secondary Bus Number 刚好 在 PCLPCI 桥 下 游 的 总 线 编号 


RI 























RI 











Subordinate Bus Number 从 这 个 桥 向 下 可 以 达到 的 所 有 总 线 中 最 高 的 总 线 编号 。 





PCI I/O and PCI Memory Windows 从 这 个 PCI-PCI 桥 向 下 的 所 有 的 地 址 的 PCI MO 地 址 空间 和 PCI 
内 存 空间 的 窗口 的 base 和 size。 
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Figure 6.6: Configuring a PCI System: Part 1 


问题 是 当 你 希望 配置 任何 指定 的 PCHPCI 桥 的 时 候 你 并 不 知 
是 否 下 游 还 有 其 他 PCI-PCI 桥 。 就 算 知道 ， 你 也 不 知道 它们 


























My 


JE 
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My 


你 不 知道 
案 是 使 用 一 

















这 个 桥 的 附属 总 线 数 
会 被 分 配 什么 编号 。 答 允 















































个 深度 递归 算法 Cdepthwise recursive algorithm) 。 
都 就 给 它们 分 配 编号 。 对 于 找到 的 每 一 个 PCHPCI 桥 ， 就 给 
时 的 附属 总 线 编号 OxFF， 并 扫描 它 的 下 游 所 有 的 PCI-PCI 桥 
是 下 面 的 实际 例子 能 使 这 个 过 程 更 清楚 


YH ZB o 























PCI-PCI Bridge Numbering: 
1 (Bridge) 。 
OxFF。 这 意味 着 指定 PCI 总 线 1 或 更 高 的 所 用 的 类 
果 它 们 的 总 线 编号 是 1， 就 转换 成 为 类 型 0 的 配置 cycle， 
正 是 Linux PCI 初 始 化 代码 需要 做 的 ， 这 样 才能 
























































在 每 一 个 总 线 上 找到 任 


Step 1 参考 图 6.6 中 的 拓扑， 
桥 1 下 游 的 PCIl 总 线 编号 为 L， 桥 1 分 配 一 个 次 总 线 写 L 和 一 个 临时 的 附属 总 线 编 号 
型 1 的 PCI 配 置地 址 会 穿 过 桥 1 到 达 PCI 总 线 1。 如 
否则 对 于 其 他 的 总 线 编号 就 不 变 。 这 也 
访问 并 扫描 PCI 总 线 1。 





何 PCLPCI 桥 的 时 候 
它 的 次 总 线 分 配 编号 ， 并 给 它 分 配 临 
并 分 配 编号 。 这 看 起 来 相当 复杂 ， 但 



































扫描 找到 的 第 一 个 桥 是 桥 
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Figure 6,7: Configuring a PCI System: Part 2 


Bus I 








PCI-PCI Bridge Numbering: Step 2 Linux 使 用 深度 算法 ， 所 以 初始 化 代码 开始 扫描 PCI 总 线 1。 
这 是 它 找 到 了 PCLPCI 桥 2， 桥 2 之 外 没有 其 他 的 PCHPCI 桥 ， 所 以 它 的 附属 总 线 编号 成 为 2， 和 它 
的 次 接口 一 样 。 图 6.7 显 示 了 总 线 和 PCLPCI 桥 这 时 是 如 何 编码 的 。 
































PCI-PCI Bridge Numbering: Step 3 PCI 初 始 化 代码 回来 扫描 PC 总线 1， 找 到 了 另 一 个 PCHPCI 桥 
3。 它 的 主 总 线 接口 赋值 1 而 它 的 次 总 线 接口 是 3， 它 的 附属 总 线 编号 是 OxFF。 图 6.8 显 示 了 系统 
这 时 是 如 何 配置 的 。 带 有 总 线 编号 L、2 或 3 的 类 型 1 的 PC 配置 cycle 现 在 可 以 正确 地 传送 到 适当 
的 PCI 总 线 。 
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Figure 6.8: Configuring a PCI System: Part 3 
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Figure 6.9: Configuring a PCI Svstem: Part 4 
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prefetchable Type 
Base Address for PCI Memory Space 


Base Address 





Reserved 


Base Address for PCI I/O Space 


Figure 6.10: PCI Conlivuration Header: Base Address Registers 


6.6.3 PCI BIOS Functions (PCI BIOS 函 数 ) 





PCI BIOS 函 数 是 通用 的 跨 平 台 的 一 系列 标准 例 程 。 例 如 ， 它 们 对 于 Intel 和 Alpha AXP 系 统 都 是 一 
样 的 。 它 们 允许 CPU 控 制 对 于 所 有 PCI 地 址 空间 的 访问 。 只 有 Linux 核 心 和 设备 驱动 程序 需要 使 用 
它们 。 








Z& Warch/*/kernel/bios32.c 


6.6.4 PCI Fixup 


Alpha AXP 系 统 上 的 PCI 整 理 代 码 比 Intel 〈 基 本 不 做 任何 事情 ) 要 做 更 多 的 工作 。 对 于 Intel 系 统 ， 
启动 时 候 运 行 的 系统 BIOS， 已 经 完全 配置 了 PCI 系 统 。Linux 不 需要 做 更 多 的 事情 ， 只 是 映射 PCI 
的 配置 。 对 于 非 Intel 系 统 ， 需 要 做 更 多 的 配置 : 








参见 arch/kernel/bios32.c 
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对 于 每 一 个 设备 分 配 PCI I/0O 和 PCI 内 存 空间 
对 于 系统 重 的 每 一 个 PCI-PCI 桥 必须 配置 PCI /0 和 PCI 内 存 地 址 窗口 


对 于 设备 产生 Interrupt Line 值 ， 这 些 控制 设备 的 中 断 处 理 


下 面 描述 这 些 代码 如 何 工 作 。 





Finding Out How Much PCI I/O and PCI Memory Space a Device Needs 


( 找 出 一 个 设备 需要 多 少 PCI /0 和 PCI 内 存 空 间 ) 


查询 找到 的 每 一 个 PCl 设 备 ， 找 出 它 需 要 多 少 PCI MO 和 内 存 地 址 空间 。 为 此 ， 把 每 一 个 Base 
Address Register 都 写成 1 然后 读 出 来 。 设 备 会 在 不 关心 的 地 址 位 返回 I， 有效 地 指定 了 需要 的 地 
址 空间 。 








用 两 个 基本 的 基础 地 址 寄存 器 (Base Address Register) ， 第 一 种 指示 设备 的 寄存 器 以 及 PCI 
I/ORIPCI 内 存 空间 必须 在 哪 一 个 地 址 空间 。 这 通过 寄存 器 的 0 位 表示 。 图 6.10 显 示 了 PCI 内 存 和 
PCI 1/0 的 基础 地 址 寄存 器 的 两 种 形式 。 


























为 了 找 出 每 一 个 给 定 的 基础 地 址 寄存 器 需要 多 少 地 址 空间 ， 和 需要 疝 所 有 的 寄存 器 写 并 读 出 来 。 
设备 会 把 不 关心 的 地 址 位 设 为 0， 这 样 就 有 效 地 指明 了 需要 的 地 址 空间 。 这 种 设计 暗示 了 使 用 的 
所 有 的 地 址 空间 都 是 2 的 指数 ， 本 质 上 是 对 齐 的 。 

















例如 ， 在 你 初始 化 DECChip 21142 PCI 快 速 以 太 网 设备 的 时 候 ， 它 告诉 你 在 PCI I/OBKPCIA 47.48 
间 它 需要 0Ox100 字 节 的 地 址 。 初 始 化 代码 为 它 分 配 空间 。 在 它 分 配 空 间 之 后 ，21142 的 控制 和 
状态 寄存 器 就 可 以 在 这 些 地 址 见 到 。 














Allocating PCI I/O and PCI Memory to PCI-PCI Bridges and Devices 


(为 PCI-PCI 桥 和 设备 分 配 PCl MO 和 PCI 内 存 ) 
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象 所 有 的 内 存 一 样 ，PCI MO 和 PCI 内 存 空 间 是 有 限 的 ， 其 中 有 一 些 相 当 紧 缺 。 对 于 非 Intel 系 统 的 
PCI 整 理 代 码 《和 Intel 系 统 的 BIOS 代 码 ) 必须 有 效 地 为 每 一 个 设备 分 配 它 需 要 的 内 存量 。 分 配给 
一 个 设备 的 PCI MO 和 PCI 内 存 的 分 配 必须 自然 对 齐 。 例 如 ， 如 果 一 个 设备 请 求 PCI 1/0 地 址 
OxB0O， 那 么 分 配 的 地 址 就 必须 是 OxB0 的 倍数 。 另 外 ， 分 配给 任何 桥 的 PCI MO 和 PCI 内 存 地 址 的 
基础 必须 分 别 对 齐 4K 和 4M 的 边界 。 下 游 的 设备 给 定 的 地 址 空间 必须 位 于 它 所 有 的 上 游 的 PCL- 
PCI 桥 的 内 存 范围 中 间 。 所 以 有 效 地 分 配 地 址 空间 是 有 比较 困难 的 问题 。 

















Linux 使 用 的 算法 依赖 于 用 PCI 设 备 驱 动 程序 建立 的 总 线 /设备 树 所 描述 的 每 一 个 设备 ， 它 按照 PCI 
IMO 内 存 递增 的 顺序 分 配 地 址 空间 。 又 是 使 用 递归 算法 ， 遍 历 PCI 初 始 化 代码 所 建立 的 pci_bus 和 
pci_dev 数 据 结 构 。BIOS 整 理 代码 从 PCl 总 线 的 根 〈pci_root 所 指 ) 开始 : 

















分 别 把 当前 的 全 局 PCI MO 和 内 存 的 基础 分 别 对 齐 在 4K 和 1M 的 边界 


对 于 当前 总 线 上 的 每 一 个 设备 〈 按 照 需要 的 PCI MO 内 存 顺序 排列 ) 
-分 配 它 的 PCI MO 和 /或 PCI 内 存 

-将 全 局 的 PCI MO 和 内 存 的 基础 按照 合适 的 量 移动 

-允许 设备 使 用 给 定 的 PCI MO 和 PCI 内 存 




















分 别 为 当前 总 线 下 游 的 所 有 总 线 分 配 空间 ， 注 意 这 会 改变 全 局 的 PCI MO 和 内 存 基础 。 


分 别 把 当前 的 全 局 PCIl MO 和 内 存 的 基础 对 齐 在 4K 和 1M 的 边界 ， 同 时 指出 当前 的 PCL-PCI 桥 所 需 
要 的 PCI MO 和 PCI 内 存 的 窗口 的 基础 和 大 小 





对 于 连接 在 当前 总 线 上 的 PCFPCI 桥 ， 设 置 它 的 PCLPCI MO 和 PCI 内 存 地 址 和 限制 。 


打开 PCHPCI 桥 上 桥接 PCI MO 和 PCI 内 存 访 问 的 功能 。 这 意味 着 如 果 任 何在 桥 的 主 PCI 总 线 上 看 到 
的 PCI MO 和 PCI 内 存 地 址 如 果 位 于 它 的 PCI MO 和 PCI 内 存 地 址 审 口 的 话 就 会 被 桥接 到 它 的 次 总 
线 。 
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以 图 6.1 的 PCI 系 统 作 为 PCl 整 理 代码 的 例子 : 


Align the PCI base (初始 的 ) PCI 1/0 是 0x4000，PCI 内 存 是 0x100000。 这 样 允 许 PCL-ISA 桥 把 
所 有 低 于 此 的 地 址 都 转换 到 ISA 地 址 。 


The Video Device 请 求 0x200000 的 PCI 内 存 ， 因 为 必须 按照 要 求 的 大 小 对 齐 ， 所 以 我 们 从 PCI 内 
存 0x200000 开 始 分 配 ，PCI 内 存 基础 地 址 移 到 了 0x400000， 而 PCI 1/0 地 址 仍旧 是 0x4000。 


The PCI-PCI Bridges 我 们 现在 穿 过 PCI-PCI 桥 ， 在 那 
地 址 因为 它们 已 经 正确 对 齐 了 。 





分 配 内 存 。 注 意 因为 我 们 不 需要 对 其 基础 











The Ethernet Device 它 在 PCI MO 和 PCI 内 存 空间 都 请 求 O0xBO 字 节 。 它 被 分 配 在 PCI 1/0 地 址 
0x4000，PCI 内 存 0x400000。PCI 内 存 的 基础 移 到 了 0x4000BO，PCI 1/0 的 基础 成 为 0x40B0。 





The SCSI Device 它 请 求 OxX1000 的 PCI 内 存 ， 所 以 它 在 对 齐 之 后 分 配 在 0xX401000。 而 PCI 1/0 的 
基础 地 址 还 是 0x40BO，PCI 内 存 的 基础 移 到 了 0Ox402000。 








The PCI-PCI Bridge's PCI I/O and Memory Windows 我 们 现在 返回 到 桥 ， 把 它 的 PCI MO 窗口 设置 
成 为 0xX4000 和 Ox40BO 之 间 ， 它 的 PCI 内 存 窗口 在 0x400000 和 0x402000 之 间 。 这 意味 着 PCI-POCI 
桥 会 忽略 对 于 显示 设备 的 PCI 内 存 访 问 ， 如 果 是 对 以 太 网 或 者 SCSI 设 备 的 访问 就 可 以 通过 。 

















Chapter 7 Interrupts and Interrupt Handling〈 中 断 和 中 断 处 理 ) 


























本 章 探 讨 Linux 核 心 如 何 处 理 中 断 。 虽 然 核心 有 用 于 处 理 中 断 的 通用 机 制 和 接口 ， 大 部 分 中 断 处 
理 的 细节 还 是 和 体系 结构 相关 的 。 

















Linux 使 用 大 量 不 同 的 便 件 来 完成 许多 不 同 的 任务 。 显 示 设 备 张 动 显 示 器 ，IDE 设 备 驱 动 磁盘 等 
等 。 你 可 以 同步 地 驱动 这 些 设备 ， 就 是 你 可 以 发 出 一 个 请 求 执行 一 些 操作 《比如 把 一 块 内 存 写 
到 磁盘 ) 然后 等 待 操作 结束 。 这 种 方式 ， 昌 然 可 以 工作 ， 但 是 非常 没有 效率 ， 操 作 系统 当 它 等 
符 每 一 个 操作 完成 的 时 候 会 花费 大 量 时 间 “ 忙 于 什么 也 不 做 ” (busy doing nothing) 。 一 个 好 
的 ， 更 有 效 的 方法 是 做 出 了 请 求 然后 去 作 其 他 更 有 用 的 事情 ， 然 后 当 设备 完成 请 求 的 时 候 被 设 
备 中 断 。 在 这 种 方案 下 ， 系 统 中 同一 时 刻 可 能 有 许多 设备 的 请 求 在 同时 发 生 。 
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让 设备 中 断 CPU 当 前 的 工作 必须 有 一 些 人 硬件 的 文 持 。 大 多数 ， 如 果 不 是 所 有 的 话 ， 通 用 目的 的 
处 理 器 比如 Alpha AXP 都 使 用 相似 的 方法 。CPU 的 一 些 物理 管 脚 的 电路 只 要 改变 电压 《例如 
从 +5V 到 -5V) 就 会 让 CPU 停止 正在 做 的 工作 ， 开 始 执行 处 理 中 断 的 特殊 代码 : 中 断 处 理 代 码 。 
这 些 管 脚 之 一 可 能 连接 一 个 内 部 适中 ， 每 一 个 1000 分 之 一 秒 就 接收 一 个 中 断 ， 其 他 的 也 许 连 接 
到 系统 的 其 他 设备 ， 比 如 SCSI 控 制 器 。 






































系统 通常 使 用 一 个 中 断 控制 器 把 设备 的 中 断 集合 在 一 起 ， 然 后 把 信号 传送 到 CPU 的 一 个 单一 的 
中 断 管 脚 。 这 可 以 节省 CPU 的 中 断 管 教 ， 也 给 设计 系统 币 来 了 灵活 性 。 中 断 控 制 嚣 有 掩 码 和 状 
态 寄 存 器 ， 用 于 控制 这 些 中 断 。 设 置 掩 码 寄 存 器 的 位 可 以 允许 和 禁止 中 断 ， 状 态 寄存 器 返回 系 
统 中 当前 的 中 断 。 























一 些 系统 中 的 中 断 可 能 是 便 连 接 的 ， 例 如 实时 时 钟 的 内 部 时 钟 可 能 永久 地 连接 到 中 上 断 控制 器 的 
第 3 管 脚 。 但 是 ， 男 一 些 管 脚 连 接 什么 可 能 由 在 特定 的 ISA 或 者 PCI 模 位 插入 什么 控制 卡 决定 。 例 
如 ， 中 断 控 制 器 的 第 4 管 脚 可 能 和 PCI 模 位 0 相连 ， 可 能 某 一 天 有 一 个 以 太 网 卡 ， 当 时 后 来 可 能 是 
一 块 SCSI 控 制 卡 。 每 一 个 系统 都 有 它 自 己 的 中 断 中 转机 制 ， 操 作 系统 必须 足够 灵活 才能 处 理 。 





























大 多 数 现 代 的 通用 目的 微 处 理 器 用 相同 的 方式 处 理 中 断 。 发 生硬 件 中 断 的 时 候 ，CPU 停 止 它 正 
在 运行 的 指令 ， 跳 到 内 存 中 一 个 位 置 运行 ， 这 里 或 者 包含 中 断 处 理 代 码 或 者 是 跳 到 中 断 处 理 代 
码 的 指令 。 这 种 代码 通常 在 CPU 的 特殊 模式 下 工作 : 中 断 模式 ， 通 常 ， 这 种 模式 下 其 他 中 断 不 
能 产生 。 这 里 也 有 例外 : 一 些 CPU 将 中 断 划 分 级 别 ， 更 高 级 别 的 中 断 可 以 发 生 。 这 意味 着 写 第 
一 级 的 中 断 处 理 程序 必须 非常 小 心 。 中 断 处 理 程序 通常 都 有 自己 的 堆栈 ， 用 来 存放 CPU 的 执行 
状态 CPU 所 有 的 通用 寄存 器 和 上 下 文 ) 并 处 理 中 断 。 一 些 CPU 有 一 组 只 在 中 断 模式 下 存在 的 
寄存 器 ， 中 断 处理 代 码 可 以 使 用 这 些 寄 存 器 来 存储 它 需 要 保存 的 大 部 分 上 下 文 信息 。 
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Real Time Clock 
74— — — ——— Keyboard 
4 08— — — — Serial 


08 — — sound 
98— — — — floppy 


2948,1.—— — — SCSI 


-48— — — — idel 
-8— — — — idel 





Figure 7.1: A Logical Diagram of Interrupt Routing 


当 处 理 完 中 断 ，CPU 的 状态 恢复 ， 中 断 结 束 。CPU 会 继续 做 它 在 中 断 发 生 之 前 做 的 
的 事 中 断 处 理 程序 必须 尽 可 能 地 有 效 ， 通 党 操作 系统 不 能 经 常 或 者 长 时 间 阻 塞 中 断 。 





TB. mx 

















7.1 Programmable Interrupt Controllers (可 编程 中 断 控制 器 ) 























系统 设计 师 可 以 任意 使 用 他 们 希望 用 的 中 断 体系 结构 ， 但 是 IBM PC 都 使 用 Intel 82C59A-2 
CMOS 可 编程 中 断 控 制 器 或 者 它 的 衍生 物 。 这 种 控制 器 在 PC 最 初 的 时 候 就 使 用 了 。 它 可 通过 寄 
存 器 编程 ， 这 些 寄存 器 在 ISA 地 址 空间 的 众所周知 的 位 置 。 其 至 很 现代 的 逻辑 芯片 组 都 在 ISA 内 
存 的 相同 位 置 保留 了 等 价 的 寄存 器 。 非 Intel 的 系统 ， 例 如 Alpha AXP PC 不 受 这 些 体系 限制 ， 通 
常 使 用 不 同 的 中 断 控 制 器 。 

































































图 7.1 显 示 了 两 个 串联 在 一 起 的 8 位 控制 器 : 每 一 个 都 有 一 个 掩 码 和 一 个 中 断 状 态 寄存 器 ，PIC1 
和 PIC2。 掩 码 寄存 器 位 于 地 址 0x21 和 OxA1， 而 状态 寄存 器 位 于 0x20 和 0OxAO0。 在 掩 码 寄存 器 的 
一 个 特殊 位 写 1 允 许 一 种 中 断 ， 写 0 可 以 禁止 它 。 所 以 向 位 3 写 1 允 许 中 断 3， 写 0 会 禁止 它 。 不 境 
的 是 (也 是 让 人 气 恼 的 ) ， 中 断 掩 码 寄 存 器 只 可 以 写 ， 你 无 法 读 回 你 所 写 的 值 。 这 意味 着 Linux 








79 of 212 04/21/2011 11:34 AM 








Linux Kernel 核 心中 文 手册 file:///media/7C88B4DC88B495DC/redbatzero/linux 内 核 图 ..… 





DMA ERKEK (mask 寄存 器 保留 一 份 本 地 拷贝 。 它 在 中 断 允 许 和 禁止 的 例 程 中 修改 这 
些 保存 的 掩 码 ， 每 一 次 都 要 把 整个 掩 码 写 到 寄存 器 中 。 





当 产 生 中 断 信 和 号， 中 断 处 理 程序 读 取 两 个 中 断 状态 寄存 器 (SR〉。 它 把 0x20 的 ISR 看 作 16 位 的 
中 断 寄 存 器 的 第 8 位 ，0xA0 中 的 ISR 看 作 高 8 位 。 所 以 ， 发 生 在 OxA0 的 ISR 的 第 1 位 的 中 断 被 看 作 
是 中 断 9。PCI1L 的 第 2 位 不 可 用 ， 因 为 它 用 作 串 联 PIC2 的 中 断 ， 任 何 PIC2 的 中 断 都 会 使 PIC1 的 第 


2 位 置 位 。 























7.2 Initializing the Interrupt Handling Data Structures (初始 化 中 断 处 理 数 据 结构 ) 











当 设 备 驱 动 程序 要 求 控 制 系统 的 中 断 的 时 候 建立 核心 的 中 断 处 理 数据 结构 。 为 此 ， 设 备 驱 动 程 
序 使 用 一 系列 Linux 核 心服 务 ， 用 来 请 求 一 个 中 断 、 人 允许 它 和 禁止 它 。 这 些 设备 驱动 程序 调用 这 
些 例 程 来 登记 它们 的 中 断 处 理 例 程 的 地 址 。 












































参见 arch/*/kernel/irq.c request_irq() enable_irq() and disable_irq() 





PC 体系 结构 为 了 方便 把 一 些 中 断 固 定 下 来 ， 所 以 驱动 程序 在 初始 化 的 时 候 只 需要 简单 地 请 求 它 
的 中 断 。 软 盘 设 备 张 动 程序 就 是 这 样 : 它 总 是 请 求 中 断 6。 但 是 也 可 能 一 个 设备 驱动 程序 不 知道 
设备 会 使 用 什么 中 断 。 对 于 PCI 设 备 驱 动 程序 这 不 是 问题 ， 因 为 它们 总 是 知道 它们 的 中 断 编 号 。 
不 地 的 是 对 于 ISA 设 备 没有 什么 简单 的 办 法 找到 它们 的 中 断 号 码 ，Linux 允 许 设 备 驱 动 程序 探查 它 
们 的 中 断 来 解决 这 个 问题 。 






















































































首先 ， 设 备 驱 动 程序 让 设备 产生 中 断 ， 然 后 系统 中 所 有 没有 分 配 的 中 断 都 允许 了 。 这 意味 着 设 
备 等 待 处 理 的 中 断 现 在 会 通过 可 编程 中 断 控 制 器 传递 。Linux 读 取 中 断 状 态 寄 存 器 然后 把 它 的 内 
容 返 回 到 设备 驱动 程序 。 非 0 的 结果 表示 在 探查 中 发 生 了 一 或 多 个 中 断 。 张 动 程序 现在 关闭 控 
查 ， 并 禁止 所 有 位 分 配 的 中 断 。 如 果 ISA 设 备 驱 动 程 序 成 功 地 找到 了 它 的 IRQ 号 ， 它 就 可 以 想 平 
常 一 样 地 请 求 控制 它 。 


























参见 arch/*/kernel/irq.c irq probe *() 








PCI 系 统 比 1SA 系 统 更 加 动态 。ISA 设 备 的 中 断 通 常用 硬件 设备 上 的 跳 线 来 设置 ， 对 于 设备 驱动 程 
序 是 固定 的 。 反 过 来 ，PCI 设 备 的 中 断 是 在 系统 启动 的 时 候 由 PCI BIOS 或 者 PCI 子 系统 在 PCI 初 始 
化 的 时 候 分 配 的 。 每 一 个 PCI 设 备 可 以 使 用 4 个 中 断 管 脚 其 中 之 一 : A、B、C 或 D。 这 时 设备 制造 
的 时 候 确 定 的 ， 大 多 数 设 备 缺 省 用 中 断 管 脚 A。 每 一 个 PCI 模 位 的 PC 中 断 线 Cinterrupte 
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line) A, B. CAID ARES BP Wiser as. FIT DARE A) S BIA NT RETE T "PIS Blas HU SO ES AD, 
槽 位 4 的 管 脚 B 可 能 转 到 了 中 断 控制 器 的 管 脚 ?， 依 此 类 推 。 
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handling 
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device 








Figure 7,2: Linux Interrupt Handling Data Structures 


PCl 中 断 如 何 被 转发 〈 路 由 route) 完全 是 和 系统 相关 的 ， 必 须 有 一 些 理解 这 种 PCl 中 断路 由 拓扑 
的 设置 代码 。 在 Intel PC 上 ， 这 是 启动 的 时 候 的 系统 BIOS 代 码 完成 的 。 但 是 对 于 没有 BlOS 的 系统 
(例如 Alpha AXP 系 统 ) ，Linux 进 行 这 种 设置 。PCI 设 置 代码 把 中 断 控 制 器 的 管 脚 编 号 写 到 每 
个 设备 的 PCI 配 置 头 中 。 它 使 用 它 知道 的 PCcl 中 断路 有 拓扑 和 设备 的 PCI 醒 位 以 及 它 正在 使 用 的 
PCI 中 断 管 脚 来 决定 中 断 管 脚 (或 者 说 IRQ) 编写。 设备 使 用 的 中 断 管 脚 就 确定 下 来 并 放 到 PCI 配 
置 头 的 一 个 域 。 它 把 这 个 信息 写 到 中 断 线 (interrupte line) Bk (这 是 为 此 目的 保留 的 ) 。 当 设 
备 驱动 程序 运行 的 时 候 ， 它 读 取 这 个 信息 ， 并 使 用 它 向 Linux 核 心 请 求 对 中 断 的 控制 。 


































































































参见 arch/alpha/kernel/bios32.c 

















系统 中 可 能 使 用 许多 PCI 中 断 资 源 。 例 如 ， 当 使 用 PCI-PCI 桥 的 时 候 。 中 断 来 源 的 数目 可 能 超过 系 
统 的 可 编程 中 断 控 制 器 的 管 脚 数 目 。 这 种 情况 下 ，PCI 设 备 可 以 共享 中 断 : 中 断 控制 器 上 的 一 个 
管 脚 接收 来 自 多 于 一 个 PCI 设 备 的 中 断 。Linux 让 第 一 个 请 求 一 个 中 断 的 源 宣 称 Cdeclare) 它 是 
否 可 以 共享 ， 这 样 来 支持 中 断 共 享 。 共 享 中 断 结果 是 irq_action 向 量 表 中 的 一 个 条 目 可 以 指向 儿 
个 irqaction 的 数据 结构 。 当 发 生 了 一 个 共享 的 中 断 的 时 候 ，Linux 会 调用 这 个 源 的 所 有 的 中 断 处 
理 程序 。 所 有 可 以 共享 中 断 的 设备 驱动 程序 〈 都 应 该 是 PCI 设 备 驱 动 程序 ) 必须 预备 在 没有 中 断 
服务 的 时 候 被 调用 。 












































7.3 Interrupt Handling ("P ETARE ) 
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Linux 中 断 处 理子 系统 的 一 个 主要 任务 是 把 中 断 转送 到 (route) 正确 的 中 断 处 理 代 码 段 。 这 种 代 
码 必 须 了 解 系统 的 中 断 拓扑 。 例 如 ， 如 果 软 驱 控 制 器 在 中 断 控 制 器 的 管 脚 6 发 生 中 断 ， 它 必须 可 
以 识别 出 中 断 是 来 自 软 驱 ， 并 把 它 转送 到 软驱 设备 驱动 程序 的 中 断 处 理 程序 代码 。Linux 使 用 一 
系列 数据 结构 的 指针 ， 包 含 了 处 理 系统 中 断 的 例 程 的 地 址 。 这 些 例 程 属于 系统 中 的 设备 的 设备 
驱动 程序 ， 每 一 个 设备 驱动 程序 必须 负责 在 驱动 程序 初始 化 的 时 候 请 求 它 想 要 的 中 断 。 图 7.2 显 
示 了 irq_action 是 一 个 指向 irqaction 数 据 结构 的 指针 的 向 量 表 。 每 一 个 irqaction 数 据 结构 都 包括 了 
这 个 中 断 处 理 程序 的 信息 ， 包 括 中 断 处理 例 程 的 地 址 。 不 同体 系 的 中 断 数目 和 如 何 处 理 是 不 同 
的 ， 通 常 ， 不 同系 统 之 间 ，Linux 中 断 处 理 代 码 是 和 体系 结构 相关 的 。 这 意味 着 irq_action 向 量 表 
的 大 小 依赖 于 中 断 源 的 数目 而 不 同 。 















































当 发 生 中 断 的 时 候 ，Linux 必 须 首先 通过 读 取 系 统 的 可 编程 中 断 控 制 费 的 状态 寄存 器 确定 它 的 来 
源 。 然 后 把 这 个 来 源 转换 成 irq_action 向 量 表 中 的 偏 移 。 例 如 ， 从 软驱 控制 器 来 的 中 断 控 制 右 管 
脚 6 的 中 断 会 转 为 中 断 处 理 程序 向 量 表 中 的 第 7 个 指针 。 如 果 发 生 的 中 断 没有 对 应 的 中 断 处 理 程 
序 ，Linux 核 心 会 记录 下 一 个 错误 ， 否 则 ， 它 会 调用 这 个 中 断 源 的 所 有 的 irqaction 数 据 结 构 中 的 
中 断 处 理 例 程 。 
































当 Linux 核 心 调用 设备 驱动 程序 的 中 断 处 理 例 程 的 时 候 ， 它 必须 有 效 地 判断 为 什么 被 中 断 ， 并 进 
行 响应 。 为 了 找 出 中 断 的 原因 ， 设 备 驱 动 程序 会 读 取 中 断 设 备 的 状态 寄存 器 。 设 备 可 能 回应 : 
发 生 了 一 个 错误 或 者 完成 了 一 个 请 求 的 操作 。 例 如 软驱 控制 器 可 能 报告 它 已 经 把 软驱 的 读 人 磁头 
定位 到 了 软盘 正确 的 硝 区 。 一 旦 确定 了 中 断 的 原因 ， 设 备 驱 动 程序 可 能 还 需要 做 更 多 的 工作 。 
如 果 是 这 样 ，Linux 核 心 有 机 制 允许 延迟 这 个 操作 稍 候 进行 。 这 可 以 避免 让 CPU 在 中 断 模式 下 人 花 
费 太 多 时 间 。 详 细 描述 参见 设备 驱动 程序 章 《 第 8 草 ) 





























Chapter 8 





Device Drivers (设备 驱动 程序 ) 

















操作 系统 其 中 一 个 目的 就 是 向 用 户 掩盖 系统 硬件 设备 的 特殊 性 。 例 如 ， 虚 拟 文件 系统 呈现 了 安 
装 的 文件 系统 的 一 个 统一 的 试图 ， 而 和 底层 的 物理 设备 无 关 。 本 章 描 述 Linux 核 心 是 如 何 管 理 系 
统 中 的 物理 设备 的 。 
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CPU 不 是 系统 中 唯一 的 智能 设备 ， 每 一 个 物理 设备 都 由 它 自己 的 硬件 控制 器 。 键 盘 、 鼠 标 和 串 
行 口 由 SuperlO 忌 片 控制 ，IDE 磁 盘 由 IDE 控 制 器 控制 ，SCSI 磁 盘 由 SCSI 控 制 器 控制 ， 等 等 。 每 一 
个 硬件 控制 器 都 由 自己 的 控制 和 状态 控制 器 〈CSR) ， 不 同 的 设备 之 间 是 不 同 的 。 一 个 Adaptec 
2940 SCSI 控 制 器 的 CSR 和 NCR 810 SCSI 控 制 器 的 完全 不 同 。CSR 用 于 启动 和 停止 设备 ， 初 始 化 
设备 和 诊断 它 的 问题 。 管 理 这 些 硬件 控制 器 的 代码 不 是 放 在 每 一 个 应 用 程序 里 边 ， 而 是 放 在 
Linux 核 心 。 这 些 处 理 或 者 管理 硬件 控制 器 的 软件 脚 做 设备 驱动 程序 。Linux 核 心 的 设备 驱动 程序 
本 质 上 是 特权 的 、 驻 留 内 存 的 低级 的 硬件 控制 例 程 的 共享 库 。 是 Linux 的 设备 驱动 程序 在 处 理 它 
们 管理 的 设备 的 特质 。 


















































UN*X 的 一 个 基本 特点 是 它 抽象 了 设备 的 处 理 。 所 有 的 硬件 设备 都 象 常 规 文件 一 样 看 待 ， 它 们 可 
以 使 用 和 操作 文件 相同 的 、 标 准 的 系统 调用 来 进行 打开 、 关 闭 和 读 写 。 系 统 中 的 每 一 个 设备 都 
用 一 个 设备 特殊 文件 代表 。 例 如 系统 中 第 一 个 IDE 硬 盘 用 /dev/had 表 示 。 对 于 块 〈 磁 盘 ) 和 字符 
设备 ， 这 些 设备 特殊 文件 用 mknod 命 令 创 建 ， 并 使 用 主 (majo) 和 次 (minor) 设备 编号 来 描 
述 设备 。 网 络 设备 也 用 设备 特殊 文件 表达 ， 但 是 它们 由 Linux 在 找到 并 初始 化 系统 中 的 网 络 控制 
器 的 时 候 创 建 。 同 一 个 设备 驱动 程序 控制 的 所 有 设备 都 由 一 个 共同 的 major 设 备 编号 。 次 设备 编 
号 用 于 在 不 同 的 设备 和 它们 的 控制 器 之 间 进 行 区 分 。 例 如 ， 主 IDE 磁 盘 的 不 同 分 区 都 由 一 个 不 同 
的 次 设备 编号 。 所 以 ，/devwhda2， 主 IDE 磁 盘 的 第 2 个 分 区 的 主 设备 号 是 3， 而 次 设备 号 是 2。 
Linux 使 用 主 设备 号 表 和 一 些 系 统 表 〈 例 如 字符 设备 表 chrdevs) 把 系统 调用 中 传递 的 设备 特殊 文 
件 〈 比 如 在 一 个 块 设备 上 安装 一 个 文件 系统 ) 映射 到 这 个 设备 的 设备 驱动 程序 中 。 





































































































































































































参见 fs/devices.c 





Linux 支 持 三 类 的 硬件 设备 ， 字 符 、 块 和 网 络 。 字 符 设 备 直接 读 写 ， 没 有 绥 冲 区 ， 例 如 系统 的 串 
行 端口 /dev/cua0O 和 /dev/cual。 块 设备 只 能 按照 一 个 块 (一般 是 512 字 节 或 者 1024 字 节 ) 的 倍 
数 进行 读 写 。 块 设备 通过 buffer cache 访 问 ， 可 以 随机 存 取 ， 就 是 说 ， 任 何 块 都 可 以 读 写 而 不 必 
考虑 它 在 设备 的 什么 地 方 。 块 设备 可 以 通过 它们 的 设备 特殊 文件 访问 ， 但 是 更 常见 的 是 通过 文 
件 系统 进行 访问 。 只 有 一 个 块 设备 可 以 支持 一 个 安装 的 文件 系统 。 网 络 设备 通过 BSD socket 接 
口 访问 ， 网 络 子 系统 在 网 络 章 〈 第 10 章 ) 描述 。 




















Linux 有 许多 不 同 的 设备 驱动 程序 (这 也 是 Linux 的 力量 之 一 ) 但 是 它们 都 具有 一 些 一 般 的 属性 : 








Kernel code 设备 驱动 程序 和 核心 中 的 其 他 代码 相似 ， 是 kenel 的 一 部 分 ， 如 果 发 生 错 误 ， 可 能 严 
重 损 害 系 统 。 一 个 写 错 的 驱动 程序 甚至 可 能 摧毁 系统 ， 可 能 破坏 文件 系统 ， 丢 失 数 据 。 


Kenel interfaces 设备 驱动 程序 必须 向 Linux 核 心 或 者 它 所 在 的 子 系 统 提供 一 个 标准 的 接口 。 例 
如 ， 终 端 驱动 程序 向 Linux 核 心 提 供 了 一 个 文件 1/O 接 口 ， 而 SCSI 设 备 驱 动 程序 向 SCSI 子 系统 提供 
了 SCSI 设 备 接 口 ， 接 着 ， 辣 核心 提供 了 文件 MO 和 buffer cache 的 接口 。 
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Kernel mechanisms and services 设备 驱动 程序 使 用 标准 的 核心 服务 例如 内 存 分 配 、 中 断 转 发 和 
等 待 队 列 来 完成 工作 


Loadable Linux 大 多 数 的 设备 驱动 程序 可 以 在 需要 的 时 候 作为 核心 模块 加 载 ， 在 不 再 需要 的 时 候 
缀 载 。 这 使 得 核心 对 于 系统 资源 非常 具有 适应 性 和 效率 。 

Configurable Linux 设 备 驱 动 程序 可 以 建立 在 核心 。 哪 些 设 备 建立 到 核心 在 核心 编译 的 时 候 是 可 
以 配置 的 。 


Dynamic 在 系统 启动 ， 个 设备 启动 程序 初始 化 的 时 候 它 但 找 它 管理 的 硬件 设备 。 如 果 一 个 
设备 驱动 程序 所 控制 的 设备 不 存在 并 没有 关系 。 这 时 这 个 设备 驱动 程序 只 是 多 余 的 ， 占 用 很 少 
的 系统 内 存 ， 而 不 会 产生 危害 。 















































8.1 Poling and Interrupts 〈 轮 询 和 中 断 ) 








每 一 次 给 设备 命令 的 时 候 ， 例 如 “把 读 磁 头 移 到 软盘 的 第 42 扇 区 “， 设 备 驱 动 程 序 可 以 选择 它 
如 何 判 断 命 令 是 否 执 行 结束 。 设 备 驱 动 程序 可 以 轮 询 设 备 或 者 使 用 中 断 。 

















轮 询 设备 通常 意味 着 不 断 读 取 它 的 状态 寄存 器 ， 直 到 设备 的 状态 改变 指示 它 已 经 完成 了 请 求 。 

因为 设备 驱动 程序 是 核心 的 一 部 分 ， 如 果 张 动 程序 一 直 在 轮 询 ， 核 心 在 设备 完成 请 求 之 前 不 能 

运行 其 他 任何 东西 ， 会 是 损失 惨重 的 。 所 以 轮 询 的 设备 驱动 程序 使 用 一 个 系统 计时 器 ， 让 系统 

在 晚 些 时 候 调 用 设备 驱动 程序 中 的 一 个 例 程 。 这 个 定时 器 例 程 会 检查 命令 的 状态 ，Linux 的 软盘 

ere 的 。 使 用 计时 需 进 行 轮 询 是 一 种 最 好 的 接近 ， 而 更 加 有 效 的 方法 是 使 用 
Br. 













































































中 断 设 备 驱动 程序 在 它 控制 的 硬件 设备 需要 服务 的 时 候 会 发 出 一 个 硬件 中 断 。 例 如 : 一 个 以 太 
网 设备 驱动 程序 会 在 设备 在 网 络 上 接收 到 一 个 以 太 网 报 文 的 时 候 被 中 断 。Linux 核 心 需要 有 能 
把 中 断 从 硬件 设备 转发 到 正确 的 设备 驱动 程序 。 这 通过 设备 驱动 程序 向 核心 登记 它 所 使 用 的 中 
断 来 实现 。 它 登记 中 断 处 理 程序 例 程 的 地 址 和 它 希 望 拥 有 的 中 断 编 号 。 你 通过 /procyVinterrupts 
可 以 看 到 设备 驱动 使 用 了 哪些 中 断 和 每 一 类 型 的 中 断 使 用 了 多 少 次 : 










































































0: 727432 timer 
1: 20534 keyboard 
2: O cascade 


3: 79691 + serial 
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4: 28258 + serial 

5: 1 sound blaster 
11: 20868 + aic? xxx 
13: 1 math error 

14: 247 + ideO 


15: 170 + ide1 





对 于 中 断 资源 的 请 求 发 生 在 驱动 程序 初始 化 的 时 间 。 系 统 中 的 一 些 中 断 是 固定 的 ， 这 是 IBM PC 
体系 结构 的 遗留 物 。 例 如 软驱 磁盘 控制 器 总 是 用 中 断 6。 其 他 中 断 ， 例 如 PCI 设 备 的 中 断 ， 在 局 
动 的 时 候 动 态 分 配 。 这 时 设备 驱动 程序 必须 首先 找 出 它 所 控制 的 设备 的 中 断 号 ， 然 后 才能 请 求 
拥有 这 个 中 断 《〈 的 处 理 权 ) 。 对 于 PCl 中 断 ，Linux 支 持 标 准 的 PCI BIOS 回 调 (callback) 来 确定 
系统 中 设备 的 信息 ， 包 括 它 们 的 IRQ。 









































一 个 中 断 本 身 是 如 何 转发 到 CPU 依赖 于 体系 结构 。 但 是 在 大 多 数 的 体系 上 ， 中 断 都 用 一 种 特殊 
的 模式 传递 ， 而 停止 系统 中 发 生 其 他 中 断 。 设 备 张 动 程序 在 它 的 中 断 处 理 例 程 中 应 该 做 尽 可 能 
少 的 工作 ， 使 得 Linux 核 心 可 以 结束 中 断 并 返回 到 它 中 断 之 前 的 地 方 。 收 到 中 断后 需要 做 大 量 工 
作 的 设备 驱动 程序 可 以 使 用 核心 的 bottom half handler 或 者 任务 队列 把 例 程 排 在 后 面 ， 以 便 在 以 
后 调用 。 









































8.2 Direct Memory Access (DMA) 

















当 数 据 量 比较 少 的 时 候 用 中 断 驱 动 的 设备 驱动 程序 向 设备 或 者 通过 设备 传输 数据 工作 地 相当 
好 。 例 如 ， 一 个 9600 波 特 率 的 modem 每 一 毫秒 〈1/1000 秒 ) 大 约 可 以 传输 一 个 字符 。 如 果 中 
断 延 迟 ， 就 是 从 硬件 设备 发 出 中 断 到 开始 调用 设备 驱动 程序 中 的 中 断 处 理 程序 所 花 的 时 间 比 较 
少 〈 比 如 2 毫秒 ) ， 那 么 数据 传输 对 系统 整体 的 映像 就 非常 小 。9600 波 特 率 的 modem 数 据 传 出 
只 会 占用 0.002% 的 CPU 处 理 时 间 。 但 是 对 于 高 速 的 设备 ， 比 如 硬盘 控制 器 或 者 以 太 网 设备 ， 数 
据 传输 速率 相当 高 。 一 个 SCSI 设 备 每 秒 可 以 传输 高 达 40M 字 节 的 信息 。 






























































直接 内 存 存 取 ， 或 者 说 DMA， 就 是 发 明 来 解决 这 个 问题 的 。 一 个 DMA 控 制 器 允许 设备 不 需要 处 
理 器 的 干预 而 和 系统 内 存 创 树 数据 。PC 的 ISA DMA 控 制 器 由 8 个 DMA 通 道 ， 其 中 7 个 可 用 于 设备 
驱动 程序 。 每 一 个 DMA 通 道 都 关联 一 个 16 位 的 地 址 寄存 器 和 一 个 16 位 的 计数 寄存 器 (count 
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register) 。 为 了 初始 化 一 次 数据 传输 ， 设 备 驱 动 程序 需要 建立 DMA 通 道 的 地 址 和 计数 寄存 器 ， 
加 上 数据 传输 的 方向 ， 读 或 号。 当 传输 结束 的 时 候 ， 设 备 中 断 PC。 这 样 ， 传 输 发 生 的 时 
候 ，CPU 可 以 作 其 他 事情 


Ho 











使 用 DMA 的 时 候 设 备 驱 动 程 序 必 须 小 心 。 首 先 ， 所 有 的 DMA 控 制 器 都 不 了 解 虚拟 内 存 ， 它 只 能 
访问 系统 中 的 物理 内 存 。 因 此 ， 需 要 进行 DMA 传 输 的 内 存 必须 是 物理 内 存 中 连续 的 块 。 这 意味 
着 你 不 能 对 于 一 个 进程 的 虚拟 地 址 空间 进行 DMA 访 问 。 但 是 你 可 以 在 执行 DMA 操 作 的 时 候 把 进 
程 的 物理 也 锁定 到 内 存 中 。 第 二 : DMA 控 制 器 无 法 访问 全 部 的 物理 内 存 。DMA 通 道 的 地 址 寄存 
器 表示 DMA 地 址 的 首 16 位 ， 跟 着 的 8 位 来 自 于 页 寄存 器 (page register) 。 这 意味 着 DMA 请 求 限 
制 在 底部 的 16M 内 存 中 。 


















































DMA 通 道 是 稀少 的 资源 ， 只 有 7 个 ， 又 不 能 在 设备 驱动 程序 之 间 共 享 。 象 中 断 一 样 ， 设 备 驱动 
程序 必须 有 能 力 发 现 它 可 以 使 用 哪 一 个 DMA 通 道 。 象 中 断 一 样 ， 一 些 设备 有 固定 的 DMA 通 道 。 
比如 软驱 设备 ， 总 是 用 DMA 通 道 2。 有 时 ， 设 备 的 DMA 通 道 可 以 用 跳 线 设置 : 一 些 以 太 网 设备 
用 这 种 技术 。 一 些 更 灵活 的 设备 可 以 告诉 它 《〈 通 过 它们 的 CSR) 使 用 哪 一 个 DMA 通 道 ， 这 时 ， 
设备 驱动 程序 可 以 简单 地 找 出 一 个 可 用 的 DMA 通 道 。 




























































































































































































Linux 使 用 dma_chan 数 据 结构 向 量 表 (每 一 个 DMA 通 道 一 个 ) 跟踪 DMA 通 道 的 使 用 。Dma_chan 
数据 结构 只 有 两 个 玉 : 一 个 字符 指针 ， 描 述 这 个 DMA 通 道 的 属 主 ， 一 个 标志 显示 这 个 DMA 通 道 
是 否 被 分 配 。 当 你 cat /proc/dma 的 时 候 显示 的 就 是 dma_chan 向 量 表 。 















































8.3 Memory (内 存 ) 





























设备 驱动 程序 必须 小 心 使 用 内 存 。 因 为 它们 是 Linux 核 心 的 一 部 分 ， 它 们 不 能 使 用 虚拟 内 存 。 每 
一 次 设备 驱动 程序 运行 的 时 候 ， 可 能 是 接收 到 了 中 断 或 者 调度 了 一 个 puttom half handler 或 任务 
队列 ， 当 前 的 进程 都 可 能 改变 。 设 备 驱动 程序 不 能 依赖 于 一 个 正在 运行 的 特殊 进程 。 象 核心 中 
其 他 部 分 一 样 ， 设 备 驱 动 程序 使 用 数据 结构 跟踪 它 控制 的 设备 。 这 些 数据 结构 可 以 在 设备 驱动 
程序 的 代码 部 分 静态 分 配 ， 但 是 这 会 让 核心 不 必要 地 增 大 而 浪费 。 多 数 设 备 驱 动 程序 分 配 核 心 
的 、 不 分 页 的 内 存 存放 它 们 的 数据 。 


















































Linux 核 心 提 供 了 核心 的 内 存 分 配 和 释放 例 程 ， 设 备 驱 动 程序 正 是 使 用 了 这 些 例 程 。 核 心 内 存 按 
照 2 的 寡 数 的 块 进行 分 配 。 例 如 128 或 512 字 节 ， 即 使 设备 驱动 程序 请 求 的 数量 没有 这 么 多 。 设 
备 驱 动 程序 请 求 的 池 节 数 按照 下 一 个 鼎 的 大 小 取 整 。 这 使 得 核心 的 内 存 回收 更 容易 ， 因 为 较 小 
的 空闲 块 可 以 组 合成 更 大 的 块 。 
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请 求 核心 内 存 的 时 候 Linux 还 需要 做 更 多 的 附加 工作 。 如 果 空 闲 内 存 的 总 数 太 少 ， 物 理 页 需要 废 
弃 或 者 写 到 交换 设备 。 通 常 ，Linux 会 挂 起 请 求 者 ， 把 这 个 进程 放 到 一 个 等 待 队列 ， 直 到 有 了 足 
够 的 物理 内 存 。 不 是 所 有 的 设备 驱动 程序 (或 者 实际 是 Linux 的 核心 代码 ) 希望 发 生 这 样 的 
情 ， 核 心 内 存 分 配 例 程 可 以 请 求 如 果 不 能 立刻 分 配 内 存 就 失败 。 如 果 设 备 张 动 程序 希望 为 DMA 
访问 分 配 内 存 ， 它 也 需要 指出 这 块 内 存 是 可 以 进行 DMA 的 。 因 为 需要 让 Linux 核 心 明 白 系 统 中 哪 
些 是 连续 的 可 以 进行 DMA 的 内 存 ， 而 不 是 让 设备 驱动 程序 决定 。 

















8.4 Interfacing Device Drivers with the Kernel (设备 驱动 程序 和 核心 接口 ) 














Linux 核 心 必须 能 够 用 标准 的 方式 和 它们 作用 。 每 一 类 的 设备 驱动 程序 ， 字符 、 块 和 网 络 ， 都 提 
供 了 通用 的 接口 供 核心 在 需要 请 求 它 们 的 服务 的 时 候 使 用 。 这 些 通 用 的 接口 意味 大 核心 可 以 完 
全 相同 地 看 竺 通常 是 非常 不 同 的 设备 和 它们 的 设备 驱动 程序 。 例 如 ，SCSI 和 IDE 和 磁盘 的 行为 非常 
不 同 ， 但 是 Linux 核 心 对 它们 使 用 相同 的 接口 。 


Linux 非 常 地 动态 ， 每 一 次 Linux 核 心 启动 ， 它 都 可 能 遇 到 不 同 的 物理 设备 从 而 需要 不 同 的 设备 驱 
动 程 序 。Linux 允 许 你 在 核心 建立 的 时 间 通 过 配置 脚本 包含 设备 驱动 程序 。 当 局 动 的 时 候 这 些 设 
备 驱 动 程序 初始 化 ， 它 们 可 能 没 发 现 它们 可 以 控制 的 任何 硬件。 其 他 驱动 程序 可 以 在 需要 的 时 
修 作为 核心 模块 加 载 。 为 了 处 理 设备 驱动 程序 的 这 种 动态 的 特质 ， 设 备 驱 动 程序 在 它们 初始 化 
的 时 候 向 核心 登记 。Linux 维 护 已 经 登记 的 设备 驱动 程序 列表 ， 作 为 和 它们 接口 的 一 部 分 。 这 些 
列表 包括 了 例 程 的 指针 和 支持 这 一 类 设备 的 接口 的 信息 。 




























































































8.4.1 Character Devices (字符 设备 ) 






































字符 设备 ，Linux 最 简单 的 设备 ， 象 文件 一 样 访问 。 应 用 程序 使 用 标准 系统 调用 打开 、 读 取 、 写 
和 关闭 ， 完 全 好 像 这 个 设备 是 一 个 普通 文件 一 样 。 其 至 连接 一 个 Linux 系 统 上 网 的 PPP 守 护 进程 
使 用 的 modem， 也 是 这 样 的 。 当 字符 设备 初始 化 的 时 候 ， 它 的 设备 驱动 程序 同 Linux 核 心 登记 ， 
在 chrdevs 疝 量 表 增 加 一 个 device_struct 数 据 结构 条 目 。 这 个 设备 的 主 设备 标识 符 〔( 例 如 对 于 tty 
设备 是 4) ， 用 作 这 个 向 量 表 的 索引 。 一 个 设备 的 主 设备 标识 符 是 固定 的 。Chrdevs 问 量 表 中 的 
每 一 个 条 目 ， 一 个 device_struct 数 据 结构 ， 包 括 两 个 元 素 : 一 个 登记 的 设备 驱动 程序 的 名 称 的 
指针 和 一 个 指向 一 组 文件 操作 的 指针 。 这 块 文件 操作 本 身 位 于 这 个 设备 的 字符 设备 驱动 程序 
中 ， 每 一 个 都 处 理 特定 的 文件 操作 比如 打开 、 读 、 写 和 关闭 。/proc/devices 中 字符 设备 的 内 容 
来 自 chrdevs 癌 量 表 
























































参见 include/linux/major.h 
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Figure 8,1; Character Devices 


REE PERE OU 
用 正确 的 字符 设备 驱动 程序 的 文 从 
用 VFS ! 节 点 表达 。 这 个 字符 特殊 文 位 
符 。 这 个 VFS | 节点 由 底层 的 文 伯 
EF 系统 创建 。 




















major 和 minor 标 


件 的 时 候 根 据 实际 的 文人 














1 如 /dev/cua0) 的 字符 特殊 文 伯 
EE VE ll FE. REI IC HH 











8 Nfs /ext2/inode.c ext2_read_inode() 


每 一 个 VFS | 节点 都 联系 着 一 组 文人 
代表 一 个 字符 
作 。 这 只 有 一 种 文 伯 
open 文 件 操 作 使 

















操作 块 。 它 也 建 并 描述 这 个 字符 特殊 文人 


的 操作 。 然 后 应 用 程序 所 有 的 文 伯 





FE 的 VFS 1 节点 什么 时 候 创 建 ， 它 的 文人 
操作 :open 操作 。 当 一 个 应 























参见 fs/devices.c chrdev_open() def. chr. fops 


8.4.2 Block Devices( 块 设备 ) 


块 设备 也 支持 象 文 伯 
符 设 备 的 十 分 相似 。Linux 有 

















一 样 被 访问 。 这 种 为 打开 的 块 特殊 文 伯 
日 blkdevs 问 量 表 维 护 已 








F 打 开 ， 核 心 必须 做 一 些 


file: ///media/7C88B4DC88B495DC/redbatzero/linux AW 4% Kl... 


情 ， 从 而 去 掉 























或 目录 一 样 ， 个 设备 特殊 文件 都 
的 VFS inode 实际 上 所 有 的 设备 特殊 文件 ) 都 包括 设备 的 
F 系 统 〈 例 如 EXT2〉， 在 查找 这 个 设备 特殊 文 

















操作 ， 依 赖 于 | 节点 所 代表 的 文 作 
操作 被 设置 成 字符 设备 的 缺 省 操 
个 字符 特殊 文件 的 时 候 ， 通 用 的 
用 设备 的 主 设备 标识 符 作为 chrdevs 向 量 表 中 的 索引 ， 取 出 这 种 特殊 设备 的 文件 
让 它 的 文件 操作 指向 设备 驱动 程序 中 
系统 操作 都 被 映射 到 字符 设备 的 文件 操作 。 























F 的 file 数 据 结构 ， 











FE 系统 对 象 不 同 而 不 同 。 不 管 




















t 下 确 的 文件 操作 组 的 机 制 和 字 
记 的 块 设备 文件 。 它 象 chrdevs 向 量 表 一 





样 ， 使 用 设备 的 主 设备 号 作为 索引 。 它 的 条 目 也 是 device_struct 数 据 结 构 。 和 字符 设备 不 同 ， 
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块 设备 进行 分 类 。SCSI 是 其 中 一 类 ， 而 IDE 是 另 一 类 。 类 问 Linux 核 心 登 记 并 辣 核 心 提 供 文 件 操 
作 。 一 种 块 设备 类 的 设备 驱动 程序 向 这 种 类 提供 和 类 相关 的 接口 。 例 如 ，SCSI 设 备 驱动 程 序 必 
须 向 SCSI 子 系统 提供 接口 ， 让 SCSI 子 系统 用 来 对 核心 提供 这 种 设备 的 文件 操作 








参见 fs/devices.c 


blk_dev_struct 


buffer bead 





Figure 8,2: Buffer Cache Block Device Requests 





每 一 个 块 设 备 驱动 程序 必须 提供 普通 的 文件 操作 接口 和 对 于 buffer cache 的 接口 。 每 一 个 块 设备 
驱动 程序 填充 blk_dev 向 量 表 中 它 的 blk_dev_struct 数 据 结构 。 这 个 向 量 表 的 索引 还 是 设备 的 主 设 
备 号 。 这 个 blk_dev_struct 数 据 结构 包括 一 个 请 求 例 程 的 地 址 和 一 个 指针 ， 指 向 一 个 request 数 据 
结构 的 列表 ， 每 一 个 都 表达 buffer cache 向 设备 读 写 一 块 数据 的 一 个 请 求 。 


2? Wdrivers/block/ll rw. blk.c include/linux/blkdev.h 





每 一 次 buffer cache 希 望 读 写 一 块 数据 到 或 从 一 个 登记 的 设备 的 时 候 它 就 在 它 的 blk_dev_struc 中 
增加 一 个 request 数 据 结 构 。 图 8.2 显 示 了 每 一 个 request 都 有 一 个 指针 指 问 一 个 或 多 个 
buffer_head 数 据 结构 ， 每 一 个 都 是 一 个 读 写 一 块 数据 的 请 求 。 这 个 buffer_head 数 据 结构 被 锁定 

(buffer cache) ， 可 能 会 有 一 个 进程 在 等 待 这 个 缓冲 区 的 阻塞 进程 完成 。 每 一 个 request 结 构 都 
是 从 一 个 静态 表 ，all_request 表 中 分 配 的 。 如 果 这 个 request 增 加 到 一 个 空 的 request 列 表 ， 就 调 
用 驱动 程序 的 request 函 数 处 理 这 个 request 队 列 。 否 则 ， 豫 动 程序 只 是 简单 地 人 处理 request 队 列 中 
的 每 一 个 请 求 。 
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一 旦 设备 驱动 程序 完成 了 一 个 请 求 ， 它 必须 把 每 一 个 buffer_head 结 构 从 request 结 构 中 删除 ， 标 
记 它 们 为 最 新 的 ， 然 后 解锁 。 对 于 buffer_head 的 解锁 会 唤醒 任何 正在 等 待 这 个 阻塞 操作 完成 的 
进程 。 这 样 的 例子 包括 文件 解析 的 时 候 : 必须 等 待 EXT2 文 件 系统 从 包括 这 个 文件 系统 的 块 设备 
上 读 取 包括 下 一 个 EXT2 目 录 条 目的 数据 块 ， 这 个 进程 将 会 在 将 要 包括 目录 条 目的 buff_head 队 列 
中 睡眠 ， 直 到 设备 驱动 程序 唤醒 它 。 这 个 request 数 据 结 构 会 被 标记 为 空间 ， 可 以 被 另 一 个 块 请 
求 使 用 。 
















































































8.5 Hard Disks (硬盘 ) 








硬盘 把 数据 存放 在 转动 的 磁 矶 上 ， 提 供 了 一 个 更 永久 存储 数据 的 方式 。 为 了 写 入 数据 ， 微 小 的 
做 头 把 磁 矶 表面 的 一 个 微小 的 点 磁化 。 通 过 磁头 可 以 探测 指定 的 微粒 是 否 被 磁化 ， 从 而 可 以 读 
出 数据 。 




















一 个 磁盘 驱动 器 由 一 个 或 多 个 磁 碟 组 成 ， 每 一 个 都 用 相当 光滑 的 玻璃 或 者 陶瓷 制 成 ， 并 覆盖 上 
一 层 精细 的 金属 氧化 物 。 磁 碟 放 在 一 个 中 心 轴 上 面 ， 并 按照 稳定 的 速度 转动 。 转 动 速 度 根据 型 
号 不 同 从 3000 到 1000RPM ( 转 / 每 分 钟 ) 。 磁 盘 的 读 / 写 磁头 负责 读 写 数据 ， 每 一 个 磁 碟 有 一 
对 ， 每 一 面 一 个 。 读 / 写 磁头 和 磁 碟 表面 并 没有 物理 的 接触 ， 而 是 在 一 个 很 薄 的 空气 热 (十 万 分 
之 一 英寸 ) 上 面 漂浮 。 读 写 磁 头 通过 一 个 驱动 器 在 磁 碟 表面 移动 。 所 有 的 磁头 都 粘 在 一 起 ， 一 
起 在 磁 碟 表面 移动 。 















































每 一 个 矿 碟 的 表面 都 分 成 多 个 狭窄 的 同心 环 ， 叫 做 磁道 Crack) 。 人 磁道 0 是 最 外 面 的 磁道 ， 最 
高 编号 的 磁道 是 最 接近 中 心 轴 的 磁道。 一 个 柱 面 (cylinder)〉 是 相同 编号 磁道 的 组 合 。 所 以 每 一 
个 磁 碟 的 每 一 面 的 所 有 的 第 5 磁道 就 是 第 5 柱 面 。 因 为 柱 面 数 和 磁道 数 相同 ， 所 以 磁盘 的 尺寸 党 
用 柱 面 来 描述 。 每 一 个 磁道 分 成 而 区 。 一 个 户 区 是 可 以 从 人 硬盘 读 写 的 最 小 数据 单元 ， 也 束 是 人 磁 
盘 的 块 大 小 。 通 常 局 区 大 小 是 512 字 广 ， 扇 区 大 小 通常 是 在 制造 磁盘 的 时 候 进 行 格式 化 的 时 候 
设 定 的 。 































































































































































































做 盘 通 常用 它 的 太 寸 (geometry) 描述 : 柱 面 数 、 磁 头 数 和 扇 区 数 。 例 如 ， 局 动 的 时 候 Linux 这 
样 描述 我 的 IDE 人 磁盘 : 








hdb: Conner Peripherals 540MB - CFS540A, 516MB w/64kB Cache, CHS=1050/16/63 
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这 意味 着 它 由 1050 柱 面 ( 磁 道 ) , 163k (8 个 磁 人 碟 〉 和 63 个 扇 区 /人 磁道。 对 于 512 字 节 的 肩 区 或 
块 大 小 ， 磁 盘 的 容量 是 529200K 字 节 。 这 和 磁盘 声明 的 516M 的 存储 能 力 不 符 合 ， 因 为 一 些 扇 
区 用 作 存 储 磁 盘 的 分 区 信息 。 一 些 磁 盘 可 以 自动 找 出 坏 的 扇 区 ， 对 其 进行 重新 索引 。 



















































































硬盘 可 以 再 分 为 分 区 。 一 个 分 区 是 分 配 用 于 特定 目的 的 一 大 组 鹿 区。 对 磁盘 分 区 允许 磁盘 用 于 
几 个 操作 系统 或 多 个 目的 。 大 多 数 单 个 磁 稳 的 Linux 系 统 都 由 3 个 分 区 : 一 个 包含 DOS 文 件 系 
统 ， 另 一 个 是 EXT2 文 件 系统 ， 第 三 个 是 交换 分 区 。 人 硬盘 的 分 区 用 分 区 表 描 述 ， 每 一 个 条 目 用 磁 
头 、 读 区 和 柱 面 号 描述 分 区 的 起 止 位 置 。 对 于 用 fdisk 格 式 化 的 DOS 磁 盘 ， 可 以 有 4 个 主人 磁盘 分 
区 。 不 是 分 区 表 所 有 的 4 个 条 目 都 必须 用 到 。Fdisk 文 持 三 种 类 型 的 分 区 : 主 分 区 、 扩 展 分 区 和 
逻辑 分 区 。 扩 展 分 区 不 是 真正 的 分 区 ， 它 可 以 包括 任意 数目 的 逻辑 分 区 。 发 明 扩 展 分 区 和 逻辑 
分 区 是 为 了 罕 破 4 个 主 分 区 的 限制 。 下 面 是 一 个 包括 2 个 主 分 区 的 磁盘 的 fdisk 的 输出 : 


































































































Disk /dev/sda: 64 heads, 32 sectors, 510 cylinders 
Units — cylinders of 2048 * 512 bytes 

Device Boot Begin Start End Blocks Id System 
/dev/sda1 1 1 478 489456 83 Linux native 
/dev/sda2 479 479 510 32768 82 Linux swap 
Expert command (m for help): p 

Disk /dev/sda: 64 heads, 32 sectors, 510 cylinders 
Nr AF Hd Sec Cyl Hd Sec Cyl Start Size ID 
100110 63 32 477 32 978912 83 

2 00 0 1 478 63 32 509 978944 65536 82 
3000000000000 


4000000000000 








CESSIT E-A IP 87] 8IBXEO, RLM, ELSIREIBRIATT, BIPC32518 3:63. 
[AL 7 Wk 1 HH 321 dX FUGA AES WES, XSPEC LSI. Fiski i402 DC 
对 齐 在 柱 面 的 边界 。 它 从 最 外 面 的 柱 面 (0〉 开 始 向 内 ， 朝 向 中 心 轴 ， 扩 展 478 个 柱 面 。 第 2 个 
分 区 ， 交 换 分 区 ， 开 始 于 下 一 个 柱 面 (478) 并 扩展 到 磁盘 最 里 面 的 柱 面 。 
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major 

major name 
minor shift 
max p 
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init() 

part 

sizes 

nr real 

real devices 
next 
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gendisk 















major 3 
major name "ideO" 
minor shift 
max p 
max nr 
init( ) hd struct[] 
part 
Mari pe 
nr_sects 
real_devices 


Start_sect 


nr_sects 


ligure 8.3: Linked list of disks 














FET RG BY EN {ee Linux AR 256 n BEI SEHE S SP. "EU ASE PA Lb EE DA Re HAE YS 
型 。Linux 还 找 出 每 一 个 人 磁盘 如 何 分 区 。 这 些 都 是 由 gendisk_head 指 针 列 表 指 问 的 一 组 gendisk 数 
据 结 构 的 列表 表达 。 对 于 每 一 个 磁盘 子 系统 ， 例 如 IDE， 初 始 化 的 时 候 生 成 gendisk 数 据 结 构 表 

















示 筷 找到 的 磁极。 这 个 过 程 和 它 登 记 它 的 文 从 














操作 和 在 blk_dev 数 据 结构 中 增加 它 的 条 目 发 生 在 


同一 时 间 。 每 一 个 gendisk 数 据 结构 都 由 一 个 唯一 的 主 设备 号 ， 和 块 特殊 设备 的 相同 。 例 
如 ，SCSI 磁 盘子 系统 会 创建 一 个 独立 的 gendisk 条 目 (“sd”) ， 主 设备 号 是 8〈 所 有 SCSI 磁 盘 
设备 的 主 设备 号 ) 。 图 8.3 显 示 了 两 个 gendisk 条 目 ， 第 一 个 是 SCSI 磁 盘子 系统 ， 第 二 个 是 IDE 磁 





























盘 控 制 器 。 这 里 是 ide0， 主 IDE 控 制 器 。 





作 ， 核 心 都 根据 它 在 块 特殊 设备 文件 











8.5.1 IDE Disks (DE 人 磁盘) 











虽然 磁盘 子 系统 在 初始 化 的 时 候 会 建立 相应 的 gendisk 条 目 ，Linux 只 是 在 进行 分 区 检查 的 时 候 才 
用 到 。 每 一 个 磁盘 子 系统 必须 维护 自己 的 数据 结构 ， 让 和 它 自 己 可 以 把 设备 的 主 设备 号 和 次 设备 
号 映射 到 物理 磁盘 的 分 区 上 。 不 管 什么 时 候 读 写 块 设 备 ， 不 管 是 通过 buffer cache 或 者 文件 操 











F 《例如 /dev/sda2〉 中 找到 的 主 设备 号 和 次 设备 号 把 操作 定 


向 到 合适 的 设备 。 是 每 一 个 设备 驱动 程序 或 子 系统 把 次 设备 号 映射 到 真正 的 物理 设备 上 。 


今天 Linux 系 统 中 最 常用 的 磁盘 是 IDE 磁 盘 (Integrated Disk Electronic) 。IDE 和 SCSI 一 样 是 一 个 





伐 盘 接口 而 不 是 一 个 MO 总 线 。 每 一 个 IDE 探 制 器 可 以 文 持 最 多 2 个 磁盘 ， 




















zx EH 
个 是 


master, 5j—^^ 


是 slave。Master 和 slave 通 沿用 磁盘 上 的 跳 线 设置 。 系 统 中 的 第 一 个 IDE 控 制 器 叫做 主 IDE 控 制 


器 ， 下 一 个 叫 从 属 控制 器 等 等 。 











IDE 可 以 从 /向 磁盘 进行 3.3M/ 秒 的 传输 ，IDE 和 磁盘 的 最 大 凡 寸 是 


538M 字 节 。 扩 展 IDE 或 EIDE 把 最 大 人 磁盘 尺寸 增加 到 8.6G 字 节 ， 数 据 传输 速率 高 达 16.6M/ 秒 。 
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IDE 和 EIDE 磁 盘 比 SCSI 磁 盘 便宜 ， 大 多 数 现代 PC 都 有 一 个 或 更 多 的 主板 上 的 IDE 控 制 髓 。 











Linux 按 照 它 发 现 的 控制 器 的 顺序 命名 IDE 磁 盘 。 主 控制 器 上 的 主 磁盘 是 /dev/had，slave 磁 盘 是 
/dev/hdb。y/dewhdc 是 次 IDE 控 制 器 上 的 master 磁 盘 。IDE 子 系统 向 Linux 登 记 IDE 控 制 器 而 不 是 磁 
盘 。 主 IDE 控 制 器 的 主 标识 符 是 3， 次 IDE 控 制 器 的 标识 符 是 22。 这 意味 着 如 果 一 个 系统 有 两 个 
IDE 控 制 器 ， 那 么 在 blk_dev 和 blkdevs 问 量 表 中 在 索引 3 和 22 会 有 IDE 子 系统 的 条 目 。IDE 磁 盘 的 块 
特殊 文件 反映 了 这 种 编号 ;磁盘 /dev/had 和 /dev/hdb， 都 连接 在 主 IDE 控 制 器 上 ， 主 设备 号 都 是 
3。 核 心 使 用 主 设备 标识 符 作为 索引 ， 对 于 这 些 块 特殊 文件 的 IDE 子 系统 进行 的 所 有 的 文件 或 者 
buffer cache 操 作 都 被 定向 到 相应 的 IDE 子 系统 。 当 执行 一 个 请 求 的 时 候 ，IDE 子 系统 负责 判断 这 
个 请 求 是 针对 哪 一 个 IDE 磁 盘 。 为 此 ，IDE 子 系统 使 用 设备 特殊 文件 中 的 次 设备 号 ， 这 些 信 息 允 
许 它 把 请 求 定 向 到 正确 的 磁盘 的 正确 的 分 区 。/dev/hdb， 主 IDE 控 制 器 上 的 slave IDE 磁 盘 的 设备 
标识 符 是 (3，64) 。 它 的 第 一 个 分 区 (/dev/hdb1) 的 设备 标识 符 是 (3，65) 。 








































































































8.5.2 Initializing the IDE Subsystem 〈 初 始 化 IDE 子 系统 ) 





IBM PC 的 大 部 分 历史 中 都 有 IDE 磁 盘 。 这 期 间 这 些 设备 的 接口 发 生 了 变化 。 这 让 IDE 子 系统 的 初 
始 化 过 程 比 它 第 一 次 出 现 的 时 候 更 加 复杂 。 




















Linux 可 以 支持 的 最 大 IDE 控 制 器 数目 是 4。 每 一 个 控制 器 都 用 一 个 ide_hwifs 同 量 表 中 的 一 个 
ide hwif t 数 据 结构 表示 。 每 一 个 ide_hwif t 数 据 结构 包含 两 个 ide_drive_ tt 数据 结构 ， 分 别 表 示 可 
能 支持 的 master 和 slave IDE 驱 动 器 。 在 IDE 子 系统 初始 化 期 间 ，Linux 首 先 查 看 在 系统 的 CMOS 内 
存 中 记录 的 磁盘 的 信息 。 这 种 用 电池 做 后 备 的 内 存在 PC 关机 的 时 候 不 会 丢失 它 的 内 容 。 这 个 
CMOS 内 存 实际 上 在 系统 的 实时 时 钟 设备 里 面 ， 不 管 你 的 PC 开 或 者 关 ， 它 都 在 运行 。CMOS 内 存 
的 位 置 由 系统 的 BIOS 设 置 ， 同 时 告诉 Linux 系 统 中 技 到 了 什么 IDE 控 制 器 和 驱动 器 。Linux 从 BIOS 
中 获取 找到 的 磁盘 的 尺寸 (geometry) ， 用 这 些 信 息 设置 这 个 驱动 器 的 ide_hwif t 的 数据 结构 。 
大 多 数 现 代 PC 使 用 PCI 芯 片 组 例如 Intel 的 82430 VX 芯 片 组 ， 包 括 了 一 个 PCI EIDE 控 制 器 。IDE 子 
系统 使 用 PCI BIOS 回 调 (callback) 定位 系统 中 的 PC CE) IDE 控 制 器 。 然 后 调用 这 些 芯片 组 的 
询问 例 程 。 





















































一 旦 发 现 一 个 IDE 接 口 或 者 控制 器 ， 就 设置 它 的 ide_hwif_t 来 反映 这 个 控制 器 和 上 面 的 磁盘 。 操 
作 过 程 中 IDE 驱 动 程序 向 I/0 内 存 空间 的 IDE 命 令 寄存 器 写 命令 。 主 IDE 控 制 器 的 控制 和 状态 寄存 
器 的 缺 省 的 MO 地 址 是 Ox1FO-Ox1F7。 这 些 地 址 是 早期 的 IBM PC 约定 下 来 的 。IDE 驱 动 程序 向 
Linux 的 buffer cache 和 VFS 登 记 每 一 个 控制 器 ， 分 别 把 它 加 到 blk_dev 和 blkdevs 疝 量 表 中 。IDE 豫 
动 程序 也 请 求 控 制 适当 的 中 断 。 同 样 ， 这 些 中 断 也 有 约定 ， 主 IDE 控 制 器 是 14， 次 IDE 控 制 器 是 
15。 但 是 ， 象 所 有 的 IDE 细 节 一 样 ， 这 些 都 可 以 用 核心 的 命令 行 选项 改变 。IDE 了 驱动 程序 在 局 动 
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的 时 候 也 为 每 一 个 找到 的 IDE 控 制 器 在 gendisk 列 表 中 增加 一 个 gendisk 条 目 。 这 个 列表 稍 后 用 于 
查看 局 动 时 找到 的 所 有 的 硬盘 的 分 区 表 。 分 区 检查 代码 明白 每 一 个 IDE 控 制 右 可 以 控制 两 个 IDE 
HEE o 




















8.5.3 SCSI Disks 〈SCSI 磁 盘 ) 





SCSI (Small Computer System Interface 小 型 计算 机 系统 接口 ) 总 线 是 一 种 有 效 的 点 对 点 的 数据 
总 线 ， 每 个 总 线 支持 多 达 8 个 设备 ， 每 个 主机 可 以 有 一 或 者 多 个 。 每 一 个 设备 都 必须 由 一 个 唯一 
的 标识 符 ， 通 常用 磁盘 上 的 跳 线 设置 。 数 据 可 以 在 总 线 上 的 任意 两 个 设备 之 间 同 步 或 者 异步 传 
输 ， 可 以 用 32 位 宽 的 数据 传输 ， 速 度 可 能 高 达 40M/ 秒 。SCSI 总 线 可 以 在 设备 之 间 传 输 数 据 和 
状态 信息 ， 发 起 者 Cnitiator) 和 目标 (target) 之 间 的 事务 会 涉及 多 达 8 个 不 同 的 阶段 。 你 可 以 
通过 SCSI 总 线 上 的 5 种 信号 判断 出 当前 的 阶段 。 这 8 个 阶段 是 : 





















































务 。 


BUS FREE 没有 设备 有 总 线 的 控制 权 ， 当 前 没有 发 生 任 何 


ARBITRATION (仲裁 ) 一 个 SCSI 设 备 试图 得 到 SCSIl 总 线 的 控制 权 ， 它 在 地 址 管 脚 上 声明 
(assert) 它 的 SCSI 标 识 符 。 最 高 编号 的 SCSI 标 识 符 成 功 。 





























SELECTION 一 个 设备 通过 仲裁 成 功 地 得 到 了 SCSI 总 线 的 控制 权 ， 现 在 它 必 须 向 它 要 发 送 命令 的 
SCSI 目 标 发 送信 号 。 它 在 地 址 管 脚 上 声明 目标 的 SCSI 标 识 符 。 


RESELECTION SCSI 设 备 在 处 理 请 求 的 过 程 中 可 能 断 线 ， 目 标 会 重新 选择 发 起 者 。 并 非 所 有 的 
SCSI 设 备 都 支持 这 一 阶段 。 


COMMAND 6、10 或 者 12 字 节 的 命令 可 以 从 发 起 者 发 送 到 目标 。 




















DATA IN, DATA OUT 在 这 一 阶段 ， 数 据 在 发 起 者 和 目标 之 间 传 输 。 


STATUS 在 完成 了 所 有 的 命令 ， 进 入 这 一 阶段 。 允 许 目 标 向 发 起 者 发 送 一 个 状态 字 节 ， 表 示 成 
功 或 失败 。 


MESSAGE IN, MESSAGE OUT 在 发 起 者 和 目标 之 间 传 递 的 附加 信息 。 





| 

















Linux SCSI 子 系统 由 两 个 基本 元 素 组 成 ， 每 一 个 都 用 数据 结构 表示 : 





Host 一 个 SCSI host 是 一 个 物理 的 硬件 ， 一 个 SCSI 控 制 器 。NCR810 PCI SCSI 控 制 器 是 一 个 SCSI 
host 的 例子 。 如 果 一 个 Linux 系 统 有 多 于 一 个 同类 型 的 SCSI 控 制 器 ， 每 一 个 实例 都 分 别 用 一 个 
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SCSI host 表 示 。 这 意味 着 一 个 SCSI 设 备 驱 动 程序 可 能 控制 多 于 一 个 控制 器 的 实例 。SCSI hosti 
常 总 是 SCSI 命 令 的 发 起 者 Cinitiator) . 











Device SCSI 设 备 通常 是 人 磁盘， 但 是 SCSI 标 准 文 持 多 种 类 型 : 人 磁带、CD-ROM 和 通用 
(generic) SCSI 设 备 。SCSI 设 备 通常 都 是 SCSI 命 令 的 目标 。 这 些 设备 必须 不 同 地 对 待 。 例 如 可 
移动 介质 如 CD-ROM 或 磁带 ，Linux 需 要 探测 介质 是 否 取 出 。 不 同 的 磁盘 类 型 有 不 同 的 主 设备 编 

号 ， 人 允许 Linux 把 块 设备 请 求 定 癌 到 合适 的 SCSI 类 型 。 






































Initializing the SCSI Subsystem 〈 初 始 化 SCSI 子 系统 ) 


初始 化 SCSI 了 系统 相当 复杂 ， 反映 出 SCSI 总 线 和 设备 的 动态 的 实质 。Linux 在 启动 的 时 候 初 始 化 
SCSI 子 系统 : 它 查 找 系统 中 的 SCSI 控 制 器 (SCSI host) : HRM P SCSU AR, 查找 每 一 个 
设备 。 然 后 初始 化 这 些 设备 ， 让 Linux 核 心 的 其 余部 分 可 以 通过 普通 的 文件 和 buffer cache 块 设备 
操作 访问 它们 。 这 个 初始 化 过 程 有 四 个 阶段 : 
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Figure 8.4: SCSI Data Structures 


首先 ，Linux 找 出 核心 建立 的 时 候 建 立 到 核心 的 哪 一 个 SCSI host 适 配器 或 控制 器 有 可 以 控制 的 便 
件 。 每 一 个 内 建 的 SCSI host 在 buildin_scsi_hosts 向 量 表 中 都 有 一 个 Scsi_Host_Template 的 条 
日 。 这 个 Scsi_Host_Template 数 据 结构 包括 例 程 的 指针 ， 这 些 例 程 可 以 执行 和 SCSI host 相 关 的 
动作 例如 探测 这 个 SCSI host 上 粘 附 了 什么 SCcSI 设 备 。 这 些 例 程 在 SCSI 子 系统 配置 期 间 被 调用 ， 
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是 文 持 这 种 host 类 型 的 SCSI 设 备 驱 动 程序 的 一 部 分 。 每 一 个 查 到 的 SCSI 控 制 器 (有 真实 的 SCSI 
设备 粘 附 ) ， 它 的 Scsi_Host_Template 数 据 结 构 都 加 到 scsi_hosts 列 表 中 ， 表 示 有 效 的 SCSI 
host。 每 一 个 探测 到 的 host 类 型 的 每 一 个 实例 都 用 scsi_hostlist 列 表 中 的 一 个 Scsi_Host 数 据 结构 
表示 。 例 如 一 个 系统 有 两 个 NCR810 PCI SCSI 控 制 器 ， 在 这 个 列表 中 会 有 两 个 Scsi_Host 条 日 ， 
每 一 个 控制 器 一 个 。 每 一 个 Scsi_Host 指 向 的 Scsi_Host_Template 表 示 它 的 设备 驱动 程序 。 




















现在 每 一 个 SCSI host 都 找到 了 ，SCSI 子 系统 必须 找到 每 一 个 host 总 线 上 的 所 有 的 SCSI 设 备 。 
SCSI 设 备 编号 从 0 到 7， 个 设备 编号 或 者 SCSI 标 识 符 在 它 所 粘 附 的 SCSI 总 线 上 都 是 唯一 的 。 
SCSI 标 识 符 通常 用 设备 上 的 跳 线 设置 。SCSI 初 始 化 代码 通过 向 每 一 个 设备 发 送 
TEST_UNIT_READY 命 令 来 查找 一 个 SCSI 总 线 上 的 每 一 个 SCSI 设 备 。 当 一 个 设备 回应 ， 再 向 它 发 
送 一 个 ENQUIRY 命 令 来 完成 它 的 判别 。 这 向 Linux 给 出 Vendor 的 名 称 和 设备 的 型 号 和 修订 号 。 
SCSI 命 令 用 一 个 Scsi_ Cmnd 数 据 结 构 来 表示 ， 这 些 命令 通过 调用 这 个 SCSI host 的 
Scsi_Host_Template 数 据 结构 中 的 设备 驱动 程序 例 程 传递 给 设备 驱动 程序 。 每 一 个 找到 的 SCSI 
设备 用 一 个 Scsi_Device 数 据 结构 表示 ， 每 一 个 都 指 问 它 的 父 Scsi_Host。 所 有 的 Scsi_Device 数 
据 结构 都 加 到 scsi_devices 列 表 中 。 图 8.4 显 示 了 主要 的 数据 结构 和 其 他 数据 结构 的 关系 。 































































































有 四 种 SCSI 设 备 类 型 : 磁盘 、 磁 带 、CD 和 通用 (generic) 。 每 一 种 SCSI 类 型 都 分 别 向 核心 登 
记 ， 有 不 同 的 主 块 设备 类 型 。 但 是 ， 它 们 只 有 在 一 个 或 多 个 给 定 的 SCSI 设 备 类 型 的 设备 找到 的 
时 候 才 登记 自己 。 个 SCSI 类 型 ， 例 如 SCSI 磁 盘 ， 维 护 它 自己 的 设备 表 。 它 用 这 些 表 把 核心 
的 块 操作 (文件 或 buffer cache) 定 癌 到 正确 的 设备 驱动 程序 或 SCSI host。 每 一 个 SCSI 类 型 都 有 
一 个 Scsi_Type_Template 数 据 结构 表示 。 它 包括 这 种 类 型 的 SCSI 设 备 的 信息 和 执行 多 种 任务 的 
例 程 的 地 址 。SCSI 子 系统 使 用 这 些 模 板 调 用 每 一 种 SCSI 设 备 类 型 的 SCSI 类 型 例 程 。 换 句 话 说 ， 
如 果 SCSI 子 系统 希望 粘 附 一 个 SCSI 磁 盘 设备 ， 它 会 调用 SCSI 磁盘 类 型 的 例 程 。 如 果 探 测 到 某 类 
型 的 一 个 或 多 个 SCSI 设 备 ， 它 的 Scsi_Type_Templates 的 数据 结构 就 加 到 了 scsi_devicelist 列 表 
中 。 
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SCSI 子 系统 初始 化 的 最 后 阶段 是 调用 每 一 个 登记 的 Scsi_Device_Template 的 完成 函数 。 对 于 SCSI 
磁盘 类 型 让 所 有 的 SCSI 磁 盘 转 动 起 来 并 记录 它们 的 磁盘 尺寸 。 它 也 把 表示 所 有 SCSI 磁 盘 的 
gendisk 数 据 结构 增 脚 的 磁盘 的 链接 列表 中 ， 如 图 8.3。 




















Delivering Block Device Requests (传递 块 设备 请 求 ) 











一 旦 Linux 初 始 化 了 SCSI 子 系统 ， 就 可 以 使 用 SCSI 设 备 了 。 每 一 个 有 效 的 SCSI 设 备 类 型 都 在 核心 
中 登记 上 自己， 所 以 Linux 可 以 把 块 设 备 请 求 定 向 到 它 那里 。 这 些 请 求 可 能 是 通过 blk_dev 的 buffer 
cache 请 求 或 者 是 通过 blkdevs 的 文件 操作 。 拿 一 个 由 一 个 或 多 个 EXT2 文 件 系统 分 区 的 SCSI 人 磁盘 
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驱动 器 为 例 ， 当 它 的 EXT2 分 区 安装 上 的 时 候 核心 的 缓冲 区 请 求 是 如 何 定向 到 正确 的 SCSI 磁 盘 
Ne? 














每 一 个 向 /从 一 个 SCSI 磁 盘 分 区 读 / 写 一 块 数据 的 请 求 都 会 在 plk_dev 问 量 表 中 这 个 SCSI 磁 盘 的 
current_request 列 表 中 加 入 一 个 新 的 request 数 据 结构 。 如 果 这 个 request 列 表 正 在 处 理 ， 那 么 
buffer cache 不 需要 做 什么 。 否 则 它 必须 让 SCSI 磁 盘子 系统 处 理 它 的 请 求 队列 。 系 统 中 的 每 一 个 
SCSI 磁 盘 用 一 个 Scsi_Disk 数 据 结构 表示 。 它 们 保存 在 rscsi_disks 癌 量 表 中 ， 用 SCSI 磁 盘 分 区 的 
次 设备 号 的 一 部 分 作为 索引 。 例 如 ，/dev/sdb1 主 设备 号 8， 次 设备 号 17， 它 的 所 以 是 1。 每 一 
个 Scsi_Disk 的 数据 结构 包括 一 个 指 问 表 示 这 个 设备 的 Scsi_Device 数 据 结构 的 指针 。Scsi_Device 
又 指向 一 个 “拥有 它 ” 的 Scsi_Host 数 据 结构 。Buffer cache 中 的 request 数 据 结构 转换 成 为 描述 
需要 发 送 到 SCSI 设 备 的 SCSI 命 令 的 Scsi_Cmd 数 据 结构 中 ， 并 在 表示 这 个 设备 的 Scsi_Host 数 据 结 
构 中 排队 。 一 旦 适当 的 数据 块 读 / 写 之 后 ， 会 由 各 自 的 SCSI 设 备 驱 动 程序 处 理 。 





















































8.6 Network Devices (网 络 设备 ) 


一 个 网 络 设备 ， 只 要 关系 到 Linux 的 网 络 子 系统 ， 是 一 个 发 送 和 接收 数据 包 的 实体 。 通 常 是 一 个 
物理 的 设备 ， 例 如 一 个 以 太 网 卡 。 但 是 一 些 网 络 设备 是 纯 软 件 的 ， 例 如 loopback 设 备 ， 用 于 问 
自己 发 送 数 据 。 每 一 个 网 络 设备 用 一 个 device 数 据 结构 表示 。 网 络 设备 驱动 程序 在 核心 启动 网 
络 初始 化 的 时 候 向 Linux 登 记 它 控制 的 设备 。Device 数 据 结 构 包 括 这 个 设备 的 信息 和 允许 大 量 文 
持 的 网 络 协议 使 用 这 个 设备 的 服务 的 函数 的 地 址 。 这 些 函 数 多 数 和 使 用 这 个 网 络 设备 传输 数据 
有 关 。 设 备 使 用 标准 的 网 络 文 持 机 制 ， 向 适当 的 协议 层 传输 接收 的 数据 。 传 输 和 接收 的 所 有 的 
网 络 数据 ( 包 packets) 都 用 sk_buff 数 据 结 构 表示 ， 这 是 灵活 的 数据 结构 ， 允 许 网 络 协议 头 很 容 
易 地 增加 和 删除 。 网 络 协议 层 如 何 使 用 网 络 设备 ， 它 们 如 何 使 用 sk_buff 数 据 结构 来 回 传 递 数 
据 ， 在 网 络 草 《第 10 章 ) 有 详细 的 描述 。 本 章 集 中 在 device 数 据 结构 以 及 网 络 设备 如 何 被 发 现 
和 初始 化 。 























































































































参见 include/linux/netdevice.h 


device 数 据 结构 包括 网 络 设备 的 信息 : 


| 

















Name 不 象 块 和 字符 设备 ， 它 们 的 设备 特殊 文件 用 mknod 命 令 创 建 ， 网 络 设备 特殊 文件 在 系统 
的 网 络 设备 发 现 并 初始 化 的 时 候 自然 出 现 。 它 们 的 名 字 是 标准 的 ， 每 一 个 名 字 都 表示 了 它 的 设 
备 类 型 。 同 种 类 型 的 多 个 设备 从 0 同上 依次 编号 。 因 此 以 太 网 设备 编号 为 /devethO、V/dev 
/eth1、/dev/eth2 等 等 。 一 些 常见 的 网 络 设备 是 : 
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/dev/ethN 以 太 网 设备 
/dev/sIN SLIP 设 备 
/dev/pppN PPP 设 备 


/dev/lo loopback 设备 




















Bus Information 这 是 设备 张 动 程序 控制 设备 需要 的 信息 。lrq 是 设备 使 用 的 中 断 。Base address 
是 设备 的 控制 和 状态 寄存 器 在 1/0 内 存 种 的 地 址 。DMA 通 道 是 这 个 网 络 设备 使 用 的 DMA 通 道 号 。 
所 有 这 些 信息 在 启动 时 设备 初始 化 的 时 候 设 置 
























































Interface Flags 这 些 描 述 了 这 个 网 络 设备 的 特性 和 能 





IFF UP 接口 up ， 正 在 运行 





IFF_BROADCAST 设备 的 广播 地 址 有 效 

IFF_DEBUG 设备 的 debug 选 项 打开 

IFF LOOPBACK 这 是 一 个 loopback 设 备 

IFF POINTTOPOINT 这 是 点 对 点 的 连接 (SLIP and PPP ) 
IFF_NOTRAILERS No network trailers 

IFF_RUNNING 分 配 了 资源 


IFF_NOARP 不 支持 ARP 协 议 





IF PROMISC 设备 在 混合 (promiscuous) 接收 模式 ， 它 会 接收 所 有 的 包 ， 不 管 它 们 的 地 址 是 
谁 。 


IFF ALLMULTI 接收 所 有 的 IP Multicast 


IFF MULTICAST 可 以 接收 IP multicast 帧 











Protocal Information 每 一 个 设备 都 描述 它 可 以 被 网 络 协议 层 如 何 使 用 : 


Mtu 不 包括 需要 增加 的 链 路 层 的 头 这 个 网 络 能 够 传输 的 最 大 尺寸 的 包 。 这 个 最 大 值 用 于 协议 层 
例如 IP， 来 选择 一 个 合适 的 包 大 小 进行 发 送 。 





cu 
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Family family 显 示 了 设备 可 以 文 持 的 协议 族 。 所 有 Linux 网 络 设 备 都 文 持 的 family 是 
AF_INET，Internet 地 址 family。 


Type 便 件 接口 类 型 描述 了 这 个 网 络 设备 连接 的 介质 。Linux 网 络 设 备 文 持 多 种 介质 类 型 。 包 括 
Ethernet, X.25, Token Ring、Slip、PPP 和 Apple Localtalk. 





Addresses device 数据 结构 保存 一 些 和 这 个 网 络 设备 相 关 的 地 址 ， 包 括 IP 地 址 


Packet Queue 这 是 一 个 sk_buff 的 包 队 列 ， 等 待 网 络 设备 进行 传输 

















Support Functions 每 一 个 设备 都 提供 了 一 组 标准 的 例 程 ， 让 协议 层 调用 ， 作 为 对 于 设备 链 路 层 
的 接口 的 一 部 分 。 包 插 设 置 和 帧 传输 例 程 ， 以 及 增加 标准 帧 头 和 收集 统计 信息 的 例 程 。 这 些 统 
计 信 息 可 以 用 ifcnfig 看 到 





























8.6.1 Initializing Network Devices (初始 化 网 络 设备 ) 








网 络 设 备 驱 动 程序 象 其 他 Linux 设 备 驱 动 程序 一 样 ， 可 以 建 并 到 Linux 核 心中 。 每 一 个 可 能 的 网 络 
设备 都 用 dev_base 列 表 指 针 指 向 的 网 络 设备 列表 中 的 一 个 device 数 据 结构 表示 。 如 果 需 要 设备 相 
关 的 操作 ， 网 络 层 调用 网 络 设备 服务 例 程 〈 放 在 device 数 据 结构 中 ) 其 中 的 一 个 。 但 是 ， 初 始 
的 时 候 ， 每 一 个 device 数 据 结 构 只 是 放 了 初始 化 或 者 探测 例 程 的 地 址 。 
































网 络 驱 动 程序 必须 解决 两 个 问题 。 首 先 ， 不 是 所 有 建立 在 Linux 核 心 的 网 络 设备 驱动 程序 都 会 有 
控制 的 设备 ;第 二 ， 系 统 中 的 以 太 网 设备 总 是 叫做 /devwethO0、V/deweth1 等 等 ， 而 不 管 底层 的 
设备 驱动 程序 是 什么 。“ 丢 失 “ 网 络 设备 的 问题 容易 解决 。 在 调用 每 一 个 网 络 设备 的 初始 化 例 
程 的 时 候 ， 它 返回 一 个 状态 ， 显 示 它 是 否定 位 到 了 它 驱 动 的 控制 器 的 一 个 实例 。 如 果 驱 动 程序 
没有 找到 任何 设备 ， 它 由 dev_base 指 向 的 device 列 表 中 的 条 日 就 被 删除 。 如 果 驱 动 程序 可 以 找到 
一 个 设备 ， 它 就 用 这 个 设备 的 信息 和 网 络 设 备 驱 动 程序 中 的 支持 函数 的 地 址 填充 device 数 据 结 
构 其 余 的 部 分 。 










































































第 二 个 问题 ， 就 是 动态 地 分 配 以 太 网 设备 到 标准 的 /dev/ethN 设 备 特殊 文件 上 ， 用 更 优雅 的 方式 
解决 。Device 列 表 中 有 8 个 标准 的 条 目 : eth0、eth1 到 eth7。 所 有 条 目的 初始 化 例 程 都 一 样 。 它 
顺序 尝试 建立 在 核心 的 每 一 个 以 太 网 设备 驱动 程序 ， 直 到 找到 一 个 设备 。 当 驱动 程序 找到 它 的 
以 太 网 设备 ， 它 就 填充 它 现 在 拥有 的 ethN 的 device 数 据 结构 。 这 时 网 络 驱 动 程序 也 要 初始 化 它 
控制 的 物理 硬件 ， 并 找 出 它 使 用 的 IRQ、DMA 等 等 。 驱 动 程序 可 能 找到 它 控制 的 网 络 设备 的 儿 个 

































































100 of 212 04/21/2011 11:34 AM 








Linux Kernel 核 心中 文 手册 file:///media/7C88B4DC88B495DC/redbatzero/linux 内 核 图 ..… 














实例 ， 在 这 种 情况 下 ， 它 就 占用 儿 个 /dev/ethN 的 device 数 据 结构 。 一 旦 所 有 的 8 个 标准 的 /dev 
/ethN 都 分 配 了 ， 就 不 会 再 探测 更 多 的 以 太 网 设备 。 





Chapter 9 





The File System (文件 系统 ) 


本 章 描 述 Linux 如 何 维护 它 支 持 的 文件 系统 中 的 文件 。 描 述 了 虚拟 文件 系统 CVirtual File System 
VFS) 并 解释 了 Linux 核 心中 真实 的 文件 系统 如 何 被 文 持 
































Linux 的 一 个 最 重要 的 特点 之 一 使 它 可 以 支持 许多 不 同 的 文件 系统 。 这 让 它 非 常 灵 活 ， 可 以 和 许 
多 其 他 操作 系统 共存 。 在 写作 本 章 的 时 候 ，Linux 可 一 直 支 持 15 种 文件 系统 : ext. ext2, xia. 
minix、umsdos、msdos、vfat、proc、smb、ncp、iso9660、sysv、hpfs、affs 和 ufs， 而 且 不 容 
疑 ， 随 肴 时 间 流 逝 ， 会 加 入 更 多 的 文件 系统 。 












































在 Linux 中 ， 象 Unix 一 样 ， 系 统 可 以 使 用 的 不 同 的 文件 系统 不 是 通过 设备 标识 符 〔 例 如 驱动 器 编 
号 或 设备 名 称 ) 访问 ， 而 是 连接 成 一 个 单一 的 树 型 的 结构 ， 用 一 个 统一 的 单个 实体 表示 文件 系 
统 。Linux 在 文件 系统 安装 的 时 候 把 它 加 到 这 个 单一 的 文件 系统 树 上 。 所 有 的 文件 系统 ， 不 管 什 
么 类 型 ， 都 安装 在 一 个 目录 ， 安 装 的 文件 系统 的 文件 掩盖 了 这 个 目录 原来 存在 的 内 容 。 这 个 目 
洒 叫 做 安装 目录 或 安装 点 。 当 这 个 文件 系统 印 载 的 时 候 ， 安 装 目录 自己 的 文件 又 可 以 呈 显现 出 































































































当 磁 盘 初 始 化 的 时 候 《〈 比 如 用 fdisk) ， 利 用 一 个 分 区 结构 把 物理 磁盘 划分 成 一 组 逻辑 分 区 。 每 
一 个 分 区 可 以 放 一 个 文件 系统 ， 例 如 一 个 EXT2 文 件 系统 。 文 件 系 统 在 物理 设备 的 块 上 通过 目 
录 、 软 链接 等 把 文件 组 织 成 逻辑 的 树 型 结构 。 可 以 包括 文件 系统 的 设备 是 块 设备 。 系 统 中 的 第 
一 个 IDE 磁 盘 驱 动 器 的 第 一 个 分 区 ，IDE 磁 盘 分 区 /dev/hdal， 是 一 个 块 设备 。Linux 文 件 系统 把 
这 些 块 设备 看 成 简单 的 线性 的 块 的 组 合 ， 不 知道 也 不 去 关心 底层 的 物理 磁盘 的 尺寸 。 把 对 设备 
的 特定 的 块 的 读 的 请 求 映射 到 对 于 设备 有 意义 的 术语 ;这 个 块 保存 在 硬盘 上 的 磁道 、 户 区 和 柱 
面 ， 这 是 每 一 个 块 设备 驱动 程序 的 任务 。 一 个 文件 系统 不 管 它 保 存在 什么 设备 上 ， 都 应 该 用 同 
样 的 方式 工作 ， 有 同样 的 观感 。 另 外 ， Ru scc 
的 配件 控制 器 的 控制 下 的 不 同 的 物理 介质 上 者 是 无 关 紧要 的 《全 少 对 于 系统 用 广 是 这 样 ) o 
件 系 统 甚至 可 能 不 在 本 地 系统 上 ， 它 可 能 是 通过 网 络 连接 远程 安装 的 。 考 虑 以 下 的 例子 ， 
Linux 系 统 的 根 文件 系统 在 一 个 SCSI 磁 各 上 。 
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A E boot etc lib opt tmp usr 
C F cdrom fd proc root var sbin 


D bin dev home mnt lost--found 
































不 管 是 操作 这 些 文件 的 用 户 还 是 程序 都 不 需要 知道 /C 实 际 上 是 在 系统 的 第 一 个 IDE 磁 盘 上 的 一 个 
安装 的 VFAT 文 件 系 统 。 本 例 中 (实际 是 我 家 中 的 Linux 系 统 ) ，/E 是 次 IDE 控 制 器 上 的 master 
IDE 人 磁盘。 第 一 个 IDE 控 制 器 是 PCI 控 制 器 ， 而 第 二 个 是 ISA 控 制 器 ， 也 控制 者 IDE CDROM， 这 些 
也 都 无 关 紧 要 。 我 可 以 用 一 个 modem 和 PPP 网 络 协议 拨号 到 我 工作 的 网 络 ， 这 时 ， 我 可 以 远程 
安装 我 的 Alpha AXP Linux 系 统 的 文件 系统 到 /mnt/remote。 


















































文件 系统 中 的 文件 包含 了 数据 的 集合 : 包含 本 章 源 的 文件 是 一 个 ASCH 文 件 ， 叫 做 
filesystems.tex。 一 个 文件 系统 不 仅 保 存 它 包括 的 文件 的 数据 ， 也 保存 文件 系统 的 结构 。 它 保存 
了 Linux 用 户 和 进程 看 到 的 所 有 的 信息 ， 例 如 文件 、 目 录 、 软 链接 、 文 件 保护 信息 等 等 。 另 外 ， 
它 必须 安全 地 保存 这 些 信息 ， 操 作 系 统 的 基本 的 一 致 性 依赖 于 它 的 文件 系统 。 没 有 人 可 以 使 用 
一 个 随机 丢失 数据 和 文件 的 操作 系统 〈 不 知道 是 否 有 ， 虽 然 我 曾经 被 拥有 的 律师 比 Linux 开 发 者 
还 多 的 操作 系统 伤害 过 ) 。 

























































































Minix 是 Linux 的 第 一 个 文件 系统 ， 有 相当 的 局 限 ， 性 能 比较 差 。 它 的 文件 名 不 能 长 于 14 个 字符 
(这 仍然 比 8.3 文 件 名 要 好 ) ， 最 大 的 文集 大 小 是 64M 字 节 。 第 一 眼看 去 ，64M 字 节 好 像 足够 
大 ， 但 是 设置 中 等 的 数据 库 需 要 更 大 的 文件 大 小 。 第 一 个 专 为 Linux 设 计 的 文件 系统 ， 扩 展 文 件 
系统 或 EXT (Extend File System) ， 在 1992 年 4 月 引入 ， 解 决 了 许多 问题 ， 但 是 仍然 感到 性 能 
低 。 所 以 ，1993 年 ， 增 加 了 扩展 文件 系统 第 二 版 ， 或 EXT2。 这 种 文件 系统 在 本 章 稍 后 详细 描 






































当 EXT 文 件 系统 增加 到 Linux 的 时 候 进 行 了 一 个 重要 的 开发 。 真 实 的 文件 系统 通过 一 个 接口 层 从 
操作 系统 和 系统 服务 中 分 离 出 来 ， 这 个 接口 叫做 虚拟 文件 系统 或 VFS。VFS 人 允许 Linux 文 持 许多 
(通常 是 不 同 的 ) 文件 系统 ， 每 一 个 都 向 VFS 表 现 一 个 通用 的 软件 接口 。Linux 文 件 系 统 的 所 有 
细节 都 通过 软件 进行 转换 ， 所 以 所 有 的 文件 系统 对 于 Linux 核 心 的 其 余部 分 和 系统 中 运行 的 程序 
显得 一 样 。Linux 的 虚拟 文件 系统 层 允 许 你 同时 透明 地 安装 许 多 不 同 的 文件 系统 。 
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Block Block Block 
Group 0 Group N-1 Group N 





Super Group Block Inode Inode Data 
Block Descriptors Bitmap Bitmap Table Blocks 


Figure 9.1: Physical Layout of Lhe EXT2 File system 








Linux 虚 拟 文件 系统 的 实现 使 得 对 于 它 的 文件 的 访问 尽 可 能 的 快速 和 有 效 。 它 也 必须 保证 文件 和 
文件 数据 正确 地 存放 。 这 两 个 要 求 相 互 可 能 不 平等 。Linux VFS 在 安装 和 使 用 每 一 个 文件 系统 的 
时 候 都 在 内 存 中 高 速 缓存 信息 。 在 文件 和 目录 创建 、 写 和 删除 的 时 候 这 些 高 速 缓存 的 数据 被 改 
动 ， 必 须 非 常 小 心 才能 正确 地 更 新 文件 系统 。 如 果 你 能 看 到 运行 的 核心 中 的 文件 系统 的 数据 结 
构 ， 你 就 能 够 看 到 文件 系统 读 写 数据 块 ， 描 述 正 在 访问 的 文件 和 目录 的 数据 结构 会 被 创建 和 破 
坏 ， 同 时 设备 驱动 程序 会 不 停 地 运转 ， 获 取 和 保存 数据 。 这 些 高 速 缓存 中 最 重要 的 是 Buffer 
Cache， 在 文件 系统 访问 它们 底层 的 块 设备 的 时 候 结 合 进来 。 当 块 被 访问 的 时 候 它 们 被 放 到 
Buffer Cache， 根 据 它们 的 状态 放 在 不 同 的 队列 中 。Buffer Cache 不 仅 绥 存 数据 缓冲 区 ， 它 也 帮 
助 管理 块 设备 驱动 程序 的 异步 接口 。 






























































9.1 The Second Extended File System (EXT2) 





EXT2 被 发 明 (Remy Card) 作为 Linux 一 个 可 扩展 和 强大 的 文件 系统 。 它 至 少 在 Linux 社 区 中 是 最 
成 功 的 文件 系统 ， 是 所 有 当前 的 Linux 发 布 版 的 基础 。EXT2 文 件 系统 ， 象 所 有 多 数 文件 系统 一 
样 ， 建 立 在 文件 的 数据 存放 在 数据 块 中 的 前 提 下 。 这 些 数据 块 都 是 相同 长 度 ， 虽 然 不 同 的 EXT2 
文件 系统 的 块 长 度 可 以 不 同 ， 但 是 对 于 一 个 特定 的 EXT2 文 件 系统 ， 它 的 块 长 度 在 创建 的 时 候 就 
确定 了 《使 用 mke2fs) 。 每 一 个 文件 的 长 度 都 按照 块 取 整 。 如 果 块 大 小 是 1024 字 节 ， 一 个 
1025 字 节 的 文件 会 占用 两 个 1024 字 节 的 块 。 不 幸 的 是 这 一 意味 着 平均 你 每 一 个 文件 浪费 半 个 
块 。 通 常 计算 中 你 会 用 磁盘 利用 来 交换 CPU 对 于 内 存 的 使 用 ， 这 种 情况 下 ，Linux 象 大 多 数 操作 
系统 一 样 ， 为 了 较 少 CPU 的 负载 ， 使 用 相对 低 效 率 的 磁盘 利用 率 来 交换 。 不 是 文件 系统 中 所 有 
的 块 都 包含 数据 ， 一 些 块 必须 用 于 放置 描述 文件 系统 结构 的 信息 。EXT2 用 一 个 inode 数 据 结构 描 
述 系 统 中 的 每 一 个 文件 ， 定 义 了 系统 的 拓扑 结构 。 一 个 inode 描 述 了 一 个 文件 中 的 数据 占用 了 哪 
些 块 以 及 文件 的 访问 权限 、 文 件 的 修改 时 间 和 文件 的 类 型 。EXT2 文 件 系统 中 的 每 一 个 文件 都 用 
一 个 inode 描 述 ， 而 每 一 个 inode 都 用 一 个 独一无二 的 数字 标识 。 文 件 系统 的 inode 都 放 在 一 起 ， 
在 inode 表 中 。EXT2 的 目录 是 简单 的 特殊 文件 (它们 也 使 用 inode 描 述 ) ， 包 括 它们 目录 条 目的 
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inode 的 指针 。 








图 9.1 显 示 了 一 个 EXT2 文 件 系统 占用 了 一 个 块 结构 的 设备 上 一 系列 的 块 。 只 要 提 到 文件 系统 ， 
块 设备 都 可 以 看 作 一 系列 能 够 读 写 的 块 。 文 件 系统 不 需要 关心 自身 要 放 在 物理 介质 的 哪 一 个 块 
上 ， 这 是 设备 驱动 程序 的 工作 。 当 一 个 文件 系统 需要 从 包括 它 的 块 设备 上 读 取信 息 或 数据 的 时 
候 ， 它 请 求 对 它 支 撑 的 设备 驱动 程序 读 取 整 数 数 目的 块 。EXT2 文 件 系统 把 它 占 用 的 逻辑 分 区 划 
分 成 块 组 (Block Group) 。 每 一 个 组 除了 当 作 信息 和 数据 块 来 存放 真实 的 文件 和 目录 之 外 ， 还 
复制 对 于 文件 系统 一 致 性 至 关 重 要 的 信息 。 这 种 复制 的 信息 对 于 发 生 灾 难 ， 文 件 系统 需要 恢复 
的 时 候 是 必要 的 。 下 面 对 于 每 一 个 块 组 的 内 容 进行 了 详细 的 描述 。 















































9.1.1 The EXT2 Inode (EXT2 | 节点 ) 


ext2_inode 


Direct Blocks 




















Data 


i EN 
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Figure 9,2: EXT2 Inode 






Indirect blocks 
Double Indirect 
Triple Indirect 





























在 EXT2 文 件 系 统 中 ，! 节 点 是 建设 的 基石 : 文件 系统 中 的 每 一 个 文件 和 目录 都 用 一 个 且 只 用 一 个 
inode 描 述 。 每 一 个 块 组 的 EXT2 的 inode 都 放 在 inode 表 中 ， 还 有 一 个 位 图 ， 让 系统 跟踪 分 配 和 未 
分 配 的 | 节点 。 图 9.2 显 示 了 一 个 EXT2 inode 的 格式 ， 在 其 他 信息 中 ， 它 包括 一 些 域 ; 
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Z& Winclude/linux/ext2. fs i.h 


mode 包括 两 组 




















述 一 个 文件 、 目 录 、 符 写 链接 、 块 设备 、 字 符 设备 或 FIFO。 


Owner Informat 


访问 权限 控制 























ion 这 个 文件 或 目录 的 数据 的 用 户 和 组 标识 符 。 这 允许 文件 系统 正确 地 进行 文件 








Size SHENK 


` CFW) 


Timestamps 这 个 inode 创 建 的 时 间 和 它 上 次 被 修改 的 时 间 。 


Datablocks 指向 这 个 inode 描 述 的 数据 的 块 的 指针 。 最 初 的 12 个 是 指向 这 个 inode 描 述 的 数据 的 
物理 块 ， 最 后 的 3 个 指针 包括 更 多 级 的 间接 的 数据 块 。 例 如 ， 两 级 的 间接 块 指针 指向 一 个 指向 数 


据 块 的 块 指针 的 块 指针 。 的 这 意味 着 小 于 或 等 于 12 数 据 块 大 小 的 文 从 


快 。 


你 应 该 注意 EXT2 inode 可 以 描述 特殊 设备 文件 。 这 些 不 是 真正 的 文件 ， 
备 。/dev 下 所 有 的 设备 文 从 


























的 设备 文件 作为 参数 。 


9.1.2 The EXT2 Superblock (EXT2 超 级 块 ) 








超级 块 包括 这 个 文 伯 
护 文 件 系 统 。 通 常 文件 




















复制 的 找 贝 ， 用 于 系统 裔 省 的 时 候 。 除 了 其 他 一 些 信息 ， 它 包括 : 


参见 include/linux/ext2_fs_sb.h 


Magic Number 
是 OxEF53。 


Revision Level major 和 minor 修 订 级 别 允 许 安 装 代 码 确定 这 个 文 从 
系统 特定 修订 下 才 有 的 特性 。 这 也 是 特性 兼容 域 ， 帮 助 安装 代码 确定 哪些 新 的 特征 可 以 安全 地 




















允许 安装 软件 检查 这 是 否 是 一 个 EXT2 文 件 系 统 的 超级 块 。 














使 用 在 这 个 文 伯 


FRE. 


系统 是 否 文 持 只 有 在 这 种 文件 





信息 : 这 个 inode 描 述 了 什么 和 用 户 对 于 它 的 权限 。 对 于 EXT2， 一 个 inode 可 以 描 














F 比 更 大 的 文件 的 访问 更 




















程序 可 以 用 于 访问 设 














都 是 为 了 人 允许 程序 访问 Linux 的 设备 。 例 如 mount 程 序 用 它 希 望 安装 








系统 基本 大 小 和 形状 的 描述 。 它 里 面 的 信息 允许 文件 系统 管理 程序 用 于 维 
系统 安装 时 只 有 块 组 0 中 的 超级 块 被 读 取 ， 但 是 每 一 个 块 组 中 都 包含 一 个 





对 于 当前 版 本 的 EXT2 








Mount Count and Maximum Mount Count 这 些 一 起 允许 系统 确定 这 个 文 从 
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查 。 每 一 次 文件 系统 安装 的 时 候 mount count 增 加 ， 当 它 等 于 maximum mount count 的 时 候 ， 会 
显示 告警 信息 “maximal mount count reached, running e2fsck is recommended" . 











Block Group Number 存放 这 个 超级 块 拨 贝 的 块 组 编号 。 


M 

















Block Size 这 个 文件 系统 的 块 的 字 节 大 小 ， 例 如 1024 字 节 。 
Blocks per Group 组 中 的 块 数目 。 象 块 大 小 一 样 ， 这 是 文件 系统 创建 的 时 候 确定 的 。 
Free Blocks 文件 系统 中 空闲 块 的 数目 








Free Inodes 文件 系统 中 空闲 的 inode 





First Inode 这 是 系统 中 第 一 个 inode 的 编号 。 一 个 EXT2 根 文件 系统 中 的 第 一 个 inode 是 “/” 目 录 
的 目录 条 目 


0 15 55 
esq Teppepodeme [ ——— 5 






inode table 


Figure 9.3: EXT2 Directory 


9.1.3 The EXT2 Group Descriptor (EXT2 组 描述 符 ) 


每 一 个 块 组 都 有 一 个 数据 结构 描述 。 象 超级 块 ， 所 有 得 亏 组 的 组 描述 符 在 每 一 块 组 都 进行 复 
制 。 每 一 个 组 描述 符 包括 以 下 信息 : 
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8 Winclude/linux/ext2 fs.h ext2 group desc 

















M 





Blocks Bitmap 这 个 块 组 的 块 分 配 位 图 的 块 编号 ， 用 在 块 的 分 配 和 回收 过 程 中 
Inode Bitmap 这 个 块 组 的 inode 位 图 的 块 编写。 用 在 inode 的 分 配 和 回收 过 程 中 。 


Inode Table 这 个 块 组 的 inode table 的 起 始 块 的 块 编号 。 个 EXT2 inode 数 据 结构 表示 的 inode 
在 下 面 描 述 





























Free blocks count, Free Inodes count, Used directory count 


组 描述 符 依次 排列 ， 它 们 一 起 组 成 了 组 描述 符 表 (group descriptor table) 。 每 一 个 块 组 包括 块 
组 描述 符 表 和 它 的 超级 块 的 完整 拷贝 。 只 有 第 一 个 拷贝 (在 块 组 0) 实际 被 EXT2 文 件 系 统 使 
用 。 其 他 拷贝 ， 象 超级 块 的 其 他 拷贝 一 样 ， 只 有 在 主 拷贝 损坏 的 时 候 才 使 用 。 




















9.1.4 EXT2 Directories (EXT2 目 录 ) 




















在 EXT2 文 件 系统 中 ， 目 录 是 特殊 文件 ， 用 来 创建 和 存放 对 于 文件 系统 中 的 文件 的 访问 路 径 。 图 
9.3 显 示 了 内 存 中 一 个 目录 条 目的 布局 。 一 个 目录 文件 ， 是 一 个 目录 条 目的 列表 ， 每 一 个 目录 条 
目 包括 以 下 信息 : 


Z& Winclude/linux/ext2. fs.h ext2_dir_entry 

















inode 这 个 目录 条 目的 inode。 这 是 个 放 在 块 组 的 inode 表 中 的 inode 数 组 的 索引 。 图 9.3 叫 做 file 的 
文件 的 目录 条 目 引 用 的 inode 是 i1. 




















Name length 这 个 目录 条 目的 字 节 长 度 
Name 这 个 目录 条 目的 名 字 








每 一 个 目录 中 的 前 两 个 条 目 总 是 标准 的 “.” 和 “..”, 分 别 表示 “本 目录 ”和 “ 父 目录 ”。 
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9.1.5 Finding a File in a EXT2 File System 〈 在 一 个 EXT2 文 件 系统 中 查找 一 个 文件 




















Linux 的 文件 名 和 所 有 的 Unix 文 件 名 的 格式 一 样 。 它 是 一 系列 目录 名 ， 用 “/” 分 隅 ， 以 文件 名 结 
尾 。 一 个 文件 名 称 的 例子 是 /homeyrusling/.cshrc， 其 中 /home 和 /rusling 是 目录 名 ， 文 件 名 
是 .cshrc。 象 其 它 Unix 系 统一 样 ，Linux 不 关心 文件 名 本 身 的 格式 : 它 可 以 任意 长 度 ， 由 可 打印 
字符 组 成 。 为 了 在 EXT2 文 件 系 统 中 找到 代表 这 个 文件 的 inode， 系 统 必须 逐个 解析 目录 中 的 文件 
名 直到 得 到 这 个 文件 。 












































我 们 需要 的 第 一 个 inode 是 这 个 文件 系统 的 根 的 inode。 我 们 通过 文件 系统 的 超级 块 找 到 它 的 编 
号 。 为 了 读 取 一 个 EXT2 inode 我 们 必须 在 适当 的 块 组 中 的 inode 表 中 查找 。 举 例 ， 如 果 根 的 inode 
编号 是 42， 那 么 我 们 需要 块 组 0 中 的 inode 表 中 的 第 42 个 inode。Root inode 是 一 个 EXT2 目 录 ， 换 
人 句 话说 root inode 的 模式 描述 它 是 一 个 目录 ， 它 的 数据 块 包括 EXT2 目 录 条 目 。 


Home 是 这 些 目录 条 目 之 一 ， 这 个 目录 条 目 给 了 我 们 描述 /home 目 录 的 inode 编 号 。 我 们 必须 读 取 
这 个 目录 《首先 读 取 它 的 inode， 然 后 读 取 从 这 个 inode 描 述 的 数据 块 读 取 目 录 条 目 ) ， 查 找 
rusling 条 目 ， 给 出 描述 /home/rusling 目 录 的 inode 编 号 。 最 后 ， 我 们 读 取 描述 /home/rusling 目 录 
的 inode 指 向 的 目录 条 目 ， 找 到 .cshrc 文 件 的 inode 编 号 ， 这 样 ， 我 们 得 到 了 包括 文件 里 信息 的 数 
据 块 。 
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9.1.6 Changing the size of a File in an EXT2 File System 〈 在 EXT2 文 件 系统 中 改变 一 个 文件 的 大 
小 ) 











文件 系统 的 一 个 常见 问题 是 它 趋 于 更 多 碎片 。 包 含 文件 数据 的 块 分 布 在 整个 文件 系统 ， 数 据 块 
越 分 散 ， 对 于 文件 数据 块 的 顺序 访问 越 没 有 效率 。EXT2 文 件 系 统 试图 克服 这 种 情况 ， 它 分 配给 
一 个 文件 的 新 块 物理 上 和 它 的 当前 数据 块 接近 或 者 至 少 和 和 它 的 当前 数据 块 在 一 个 块 组 里 面 。 只 
有 这 个 失败 了 它 才 分 配 其 它 块 组 中 的 数据 块 。 























无 论 何 时 一 个 进程 试图 象 一 个 文件 写 入 数据 ，Linux 文 件 系统 检查 数据 是 否 会 超出 文件 最 后 分 配 
块 的 结尾 。 如 果 是 ， 它 必须 为 这 个 文件 分 配 一 个 新 的 数据 块 。 直 到 这 个 分 配 完成 ， 该 进程 无 法 
运行 ， 它 必须 等 竺 文件 系统 分 配 新 的 数据 块 并 把 剩 下 的 数据 写 入 ， 然 后 才能 继续 。EXT2 块 分 配 
例 程 所 要 做 的 第 一 个 事情 是 锁定 这 个 文件 系统 的 EXT2 超 级 块 。 分 配 和 释放 块 需要 改变 超级 块 中 
的 域 ，Linux 文 件 系 统 不 能 允许 多 于 一 个 进程 同一 时 间 都 进行 改变 。 如 果 另 一 个 进程 需要 分 配 更 
多 的 数据 块 ， 它 必须 等 待 ， 直 到 这 个 进程 完成 。 等 待 超级 块 的 进程 被 挂 起 ， 不 能 运行 ， 直 到 超 
级 块 的 控制 权 被 它 的 当前 用 户 释 放 。 对 于 超级 块 的 访问 的 授权 基于 一 个 先 来 先 服务 的 基础 
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(first come first serve) ， 一 旦 一 个 进程 拥有 了 超级 块 的 控制 ， 它 一 直 维 持 控 制 权 到 它 完 成 
锁定 超级 块 之 后 ， 进 程 检 查 文件 系统 是 否 有 足够 的 空闲 块 。 如 果 没 有 足够 的 空 闻 块 ， 分 配 更 多 
的 尝试 会 失败 ， 进 程 交 出 这 个 文件 系统 超级 块 的 控制 权 。 




















如 果 文 件 系 统 中 有 足够 的 空闲 块 ， 进 程 会 试图 分 配 一 块 。 如 果 这 个 EXT2 文 件 系 统 已 经 建立 了 预 
分 配 的 数据 块 ， 我 们 就 可 以 取 用 。 预 分 配 的 块 实际 上 并 不 存在 ， 它 们 只 是 分 配 块 的 位 图 中 的 保 
ra ER. VFS inode 用 两 个 EXT2 特 有 的 域 表 示 我 们 试图 分 配 新 数据 块 的 文件 : prealloc_block and 
prealloc_count， 分 别 是 预 分 配 块 中 第 一 块 的 编号 和 预 分 配 块 的 数 日 。 如 果 没 有 预 分 配 块 或 者 预 
分 配 被 禁止 ，EXT2 文 件 系 统 必须 分 配 一 个 新 的 数据 块 。EXT2 文 件 系 统 首先 查看 文件 最 后 一 个 数 
据 块 之 后 数据 块 是 否 空 闻 。 逻 辑 上 ， 这 是 可 分 配 的 效率 最 高 的 块 ， 因 为 可 以 让 顺序 访问 更 快 。 
如 果 这 个 块 不 是 空闲 ， 继 续 查 找 ， 在 随后 的 64 块 中 找 理 想 的 数据 块 。 这 个 块 ， 虽 然 不 是 最 理 
想 ， 但 是 至 少 和 文件 的 其 它 数 据 块 相当 接近 ， 在 一 个 块 组 中 。 


参见 fs/ext2/balloc.c ext2 new. block() 

























































































如 果 这 些 块 都 没有 衬 亲 的， 进程 开始 顺序 查看 所 有 其 它 块 组 直到 它 找到 衬 闲 的 块 。 块 分 配 代码 
在 这 些 块 组 中 查找 8 个 空闲 数据 块 的 复 。 如 果 无 法 一 次 找到 8 个 ， 它 会 降低 要 求 。 如 果 希 望 进行 
块 预 分 配 ， 并 允许 ， 它 会 相应 地 更 新 prealloc_block 和 prealloc_count。 











不 管 在 哪里 找到 了 空闲 的 数据 块 ， 块 分 配 代码 会 更 新 块 组 的 块 位 图 ， 并 从 buffer cache 中 分 配 一 
个 数据 缓 神 区 。 这 个 数据 缓冲 区 使 用 支撑 文件 系统 的 设备 标识 符 和 分 配 块 的 块 编号 来 唯一 标 
识 。 缓 冲 区 中 的 数据 被 置 为 0， 缓 冲 区 标记 为 “dirty” 表 示 它 的 内 容 还 没有 写 到 物理 磁盘 上 。 最 
后 ， 超 级 块 本 身 也 标记 位 “dirty”， 显 示 它 进行 了 改动 ， 然 后 它 的 锁 被 释放 。 如 果 有 进程 在 等 
答 超 级 块 ， 那 么 队列 中 第 一 个 进程 束 允 许 运行 ， 得 到 超级 块 的 排 它 控制 权 ， 进 行 它 的 文件 操 
作 。 进 程 的 数据 写 到 新 的 数据 块 ， 如 果 数 据 英 填 满 ， 整 个 过 程 重 复 进 行 ， 再 分 配 其 它 数据 英 




































































9.2 The Virtual File System (虚拟 文件 系统 VFS) 





图 9.4 显 示 了 Linux 核 心 的 虚拟 文件 系统 和 它 的 真实 的 文件 系统 之 间 的 关系 。 虚 拟 文件 系统 必须 
管理 任何 时 间 安 六 的 所 有 的 不 同 的 文件 系统 。 为 此 它 管理 描述 整个 文件 系统 (虚拟 ) 和 各 个 真 
实 的 、 安 装 的 文件 系统 的 数据 结构 。 


相当 混乱 的 是 ，VFS 也 使 用 术语 超级 块 和 inode 来 描述 系统 的 文件 ， 和 EXT2 文 件 系统 使 用 的 超级 
块 和 inode 的 方式 非常 相似 。 象 EXT2 的 inode，VFS 的 inode 描 述 系统 中 的 文件 和 目录 : 虚拟 文件 系 
统 的 内 容 和 拓扑 结构 。 从 现在 开始 ， 为 了 避免 混淆 ， 我 会 用 VFS inode 和 VFS 超 级 块 以 便 同 EXT2 
的 inode 和 超级 块 区 分 开 来 。 
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参见 fs/* 








当 每 一 个 文件 系统 初始 化 的 时 候 ， 它 自身 向 VFS 登 记 。 这 发 生 在 系统 启动 操作 系统 初始 化 自身 
的 时 候 。 真 实 的 文件 系统 自身 建立 在 内 核 中 或 者 是 作为 可 加 载 的 模块 。 文 件 系统 模块 在 系统 需 
要 的 时 候 加 载 ， 所 以 ， 如 果 VFAT 文 件 系统 用 核心 模块 的 方式 实现 ， 那 么 它 只 有 在 一 个 VFAT 文 件 
系统 安装 的 时 候 才 加 载 。 当 一 个 块 设备 文件 系统 安装 的 时 候 ， (包括 root 文 件 系统 ) ，VFS 必 须 
读 取 它 的 超级 块 。 每 一 个 文件 系统 类 型 的 超级 块 的 读 取 例 程 必须 找 出 这 个 文件 系统 的 拓扑 结 
构 ， 并 把 这 些 信息 映 射 到 一 个 VFS 超 级 块 的 数据 结构 上 。VFS 保 存 系统 中 安装 的 文件 系统 的 列表 
和 它们 的 VFS 超 级 块 列表 。 每 一 个 VFS 超 级 块 包括 了 文件 系统 的 信息 和 完成 特定 功能 的 例 程 的 指 
针 。 例 如 ， 表 示 一 个 安装 的 EXT2 文 件 系统 的 超级 块 包 括 一 个 EXT2 相 关 的 inode 的 读 取 例 程 的 指 
针 。 这 个 EXT2 inode 读 取 例 程 ， 象 所 有 的 和 文件 系统 相关 的 inode 读 取 例 程 一 样 ， 填 充 VFS inode 
的 域 。 每 一 个 VFS 超 级 块 包括 文件 系统 中 的 一 个 VFS inode 的 指针 。 对 于 root 文 件 系统 ， 这 是 表示 
“/” 目 录 的 inode。 这 种 信息 映射 对 于 EXT2 文 件 系统 相当 高 效 ， 但 是 对 于 其 他 文件 系统 相对 效 
率 较 低 。 
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Figure 9.4: A Logical Diagram of the Virtual Tile System 
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当 系 统 的 进程 访问 目录 和 文件 的 时 候 ， 调 用 系统 例 程 ， 游 历 系统 中 的 VFS inode。 例 如 再 一 个 目 
录 中 输入 Is 或 者 cat 一 个 文件 ， 让 VFS 碍 找 代 表 这 个 文件 系统 的 VFS inode。 映 为 系统 中 的 每 一 个 
文件 和 目录 都 用 一 个 VFS inode 代 表 ， 所 以 一 些 inode 会 被 重复 访问 。 这 些 inode 保 存在 inode 
cache， 这 让 对 它们 的 访问 更 快 。 如 果 一 个 inode 不 在 inode cache 中 ， 那 么 必须 调用 一 个 和 文件 
系统 相关 的 例 程 来 读 取 适当 的 inode。 读 取 这 个 inode 的 动作 让 它 被 放 到 了 inode cache， 以 后 对 这 
个 inode 的 访问 会 让 它 保留 在 cache 中 。 较 少 使 用 的 VFS inode 会 从 这 个 高 速 绥 存 中 删除 。 



































参见 fs/inode.c 














所 有 的 Linux 文 件 系 统 使 用 一 个 共同 的 buffer cache 来 缓存 底层 的 设备 的 数据 缓冲 区 ， 这 样 可 以 加 
速 对 于 存放 文件 系统 的 物理 设备 的 访问 ， 从 而 加 快 对 文件 系统 的 访问 。 这 个 buffer cache 独 立 于 
文件 系统 ， 集 成 在 Linux 核 心 分 配 、 读 和 写 数据 缓冲 区 的 机 制 中 。 让 Linux 文 件 系 统 独 立 于 底层 的 
介质 和 文 撑 的 设备 驱动 程序 有 特殊 的 好 处 。 所 有 的 块 结构 的 设备 向 Linux 核 心 登记 ， 并 表现 为 一 
个 统一 的 ， 以 块 为 基础 的 ， 通 常 是 异步 的 接口 。 甚 至 相对 复杂 的 块 设备 比如 SCSI 设 备 也 是 这 
样 。 当 真实 的 文件 系统 从 底层 的 物理 磁盘 读 取 数据 的 ， 引 起 块 设备 驱动 程序 从 它们 控制 的 设备 
上 读 取 物理 块 。 在 这 个 块 设备 接口 中 集成 了 buffer cache。 当 文件 系统 读 取 了 块 的 时 候 ， 它 们 被 
存放 到 了 所 有 的 文件 系统 和 Linux 核 心 共 享 的 全 局 的 buffer cache”. HF buffer CRIK) 用 
它们 的 块 编号 和 被 读 取 设备 的 一 个 唯一 的 标识 符 来 标记 。 所 以 ， 如 果 相 同 的 数据 经 常 需要 ， 它 
会 从 buffer cache 中 读 取 ， 而 不 是 从 磁盘 读 取 (会 花费 更 多 时 间 ) 。 一 些 设备 支持 超前 读 Cread 
ahead) ， 数 据 块 会 预先 读 取 ， 以 备 以 后 可 能 的 读 取 。 

























































































参见 fs/buffer.c 











VFS 也 保存 了 一 个 目录 查找 的 缓存 ， 所 以 一 个 常用 的 目录 的 inode 可 以 快速 找到 。 作 为 一 个 试 
验 ， 试 着 对 于 你 最 近 没 有 列表 的 目录 列表 。 第 一 次 你 列表 的 时 候 ， 你 会 注意 到 短暂 的 停顿 ， 当 
时 第 二 次 你 列表 的 时 候 ， 结 果 会 立即 出 来 。 目 录 缓 存 本 身 不 存储 目录 里 的 inode， 这 是 inode 
cache 负 责 的 ， 目 录 组 存 只 是 存储 目录 项 目 全 称 和 它们 的 inode 编 号 。 









































RI 











参见 fs/dcache.c 


9.2.1 The VFS Superblock 〈VFS 超 级 块 ) 

















手 一 个 安装 的 文件 系统 都 用 VFS 超 级 块 表示 。 除 了 其 它 信息 ，VFS 超 级 块 包括 ; 





e 





8 Winclude/linux/fs.h 
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Device 这 是 包含 文件 系统 的 块 设备 的 设备 标识 符 。 例 如 ，/dev/hdal1， 系 统 中 的 第 一 个 IDE 磁 
盘 ， 设 备 标 识 符 是 0x301 











Inode pointers 其 中 的 mounted inode 指 针 指 问 该 文件 系统 的 第 一 个 inode。Covered inode 指 针 指 
向 文件 系统 安装 到 的 目录 的 inode。 对 于 root 文 件 系统 ， 它 的 VFS 超 级 块 中 没有 covered 指 针 。 











Blocksize 文件 系统 块 的 字 节 大 小 ， 例 如 1024 字 节 。 


Superblock operations 指 癌 一 组 本 文件 系统 超级 块 例 程 的 指针 。 除 了 其 他 类 型 之 外 ，VFS 使 用 这 
些 例 程 读 写 inode 和 超级 块 





























File System type 指向 这 个 安装 的 文件 系统 的 file_system_type 数 据 结 构 的 一 个 指针 








File System Specific 指 问 这 个 文件 系统 需要 的 信息 的 一 个 指针 





9.2.2 The VFS Inode 





























VFS inode 中 的 信息 使 用 文件 系统 相关 的 例 程 从 底层 的 文件 系统 中 获取 。VFS inode 只 在 核心 的 内 
存 中 存在 ， 只 要 对 系统 有 用 ， 就 一 直 保 存在 VFS inode cache 中 。 除 了 其 它 信息 ，VFS inode 包 括 
一 些 域 ; 


















































参见 include/linux/fs.h 











device 存放 这 个 文件 (或 这 个 VFS inode 代 表 的 其 它 实 体 ) 的 设备 的 设备 标识 符 。 














Inode nunber 这 个 inode 的 编号 ， 在 这 个 文件 系统 中 唯一 。Device 和 inode number 的 组 合 在 整个 
虚拟 文件 系统 中 是 唯一 的 。 


Mode 象 EXT2 一 样 ， 这 个 域 描述 这 个 VFS inode 代 表 的 东西 和 对 它 的 访问 权限 。 




















User ids 属 主 标识 符 


Times 创建 、 修 改 和 写 的 时 间 





Block size 这 个 文件 的 块 的 字 节 大 小 ， 例 如 1024 字 节 


Inode operations 指向 一 组 例 程 地 址 的 指针 。 这 些 例 程 和 文件 系统 相关 ， 执 行 对 于 这 个 inode 的 操 
作 ， 例 如 truncate 这 个 inode 代 表 的 文件 





























Count 系统 组 件 当前 使 用 这 个 VFS inode 的 数目 。Count 0 意味 着 这 个 inode 是 空闲 ， 可 以 废弃 或 者 





112 of 212 04/21/2011 11:34 AM 





Linux Kernel 核 心中 文 手册 file: ///media/7C88B4DC88B495DC/redbatzero/linux A 4% B... 

















重用 。 
Lock 这 个 域 用 于 锁定 这 个 VFS inode。 例 如 当 从 文件 系统 读 取 它 的 时 候 


























Dirty 显示 这 个 VFS inode 是 否 被 写 过 ， 如 果 这 样 ， 底 层 的 文件 系统 需要 更 新 。 


File system specific information 





9.2.3 Registering the File Systems (登记 文件 系统 ) 


file system type file system type file system type 
lile systems Ex. YP z typ _SY _type 


*read_supert) 


'iso9660" 





Figure 9,5: Registered File Systems 

















当 你 建立 Linux 核 心 的 时 候 ， 你 会 被 提问 是 否 需 要 每 一 个 支持 的 文件 系统 。 当 核心 建立 的 时 候 ， 
文件 系统 初始 化 代码 包括 对 于 所 有 内 建 的 文件 系统 的 初始 化 例 程 的 调用 。Linux 文 件 系统 也 可 以 
建立 成 为 模块 ， 这 种 情况 下 ， 它 们 可 以 在 需要 的 时 候 加 载 或 者 手工 使 用 insmod 加 载 。 当 家 在 一 
个 文件 系统 模块 的 时 候 ， 它 自身 向 核心 登记 ， 当 钊 载 的 时 候 ， 它 就 注销 。 每 一 个 文件 系统 的 初 
始 化 例 程 都 向 虚拟 文件 系统 注册 自身 ， 并 用 一 个 file_system_type 数 据 结构 代表 ， 这 里 面包 括 文 
件 系统 的 名 称 和 一 个 指向 它 的 VFS 超 级 块 的 读 取 例 程 的 指针 。 图 9.5 显 示 file_system_type 数 据 结 
构 被 放 到 了 由 file_systems 指 针 指 向 的 一 个 列表 中 。 个 file_system_type 数 据 结构 包括 以 下 信 
BH. 


sve 





















































参见 fs/filesystems.c sys setup() 


参见 include/linux/fs.h file system type 

















Superblock read routine EXP XC TF ARB —^ SE Pa ELBE EY HOS, FF Sel ICA DE 





File Systme name 文件 系统 的 名 称 ， 例 如 ext2 


Device needed 是 否 这 个 文件 系统 需要 一 个 设备 支持 ?并非 所 有 的 文件 系统 需要 一 个 设备 来 存 
放 。 例 如 /proc 文 件 系统 ， 不 需要 一 个 块 设 备 
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你 可 以 检查 /proc/filesystems 来 查看 登记 了 哪些 文件 系统 ， 例 如 : 








ext2 
nodev proc 


iso9660 





9.2.4 Mounting a File System (安装 一 个 文件 系统 ) 

















当 超 级 用 户 试图 安装 一 个 文件 系统 的 时 候 ，Linux 核 心 必 须 首先 验证 系统 调用 中 传递 的 参数 。 虽 
然 mount 可 以 执行 一 些 基 本 的 检查 ， 但 是 它 不 知道 这 个 核心 建立 是 可 以 文 持 的 文件 系统 或 者 提 
议 的 安装 点 是 否 存 在 。 考 虑 以 下 的 mount 命令 : 
































$ mount —t iso9660 —o ro /dev/cdrom /mnt/cdrom 











这 个 mount 命 令 会 传递 给 核心 三 部 分 信息 : 文件 系统 的 名 称 、 包 括 这 个 文件 系统 的 物理 块 设备 
和 这 个 新 的 文件 系统 要 安装 在 现存 的 文件 系统 拓扑 结构 中 的 哪 一 个 地 方 。 


虚拟 文件 系统 要 做 的 第 一 件 事 情 是 找到 这 个 文件 系统 。 它 首先 查看 file_systems 指 问 的 列表 中 的 
每 一 个 file_system_type 数 据 结 构 ， 查 看 所 有 已 知 的 文件 系统 。 如 果 它 找到 了 一 个 匹配 的 名 称 ， 
它 就 直到 这 个 核心 支持 这 个 文件 系统 类 型 ， 并 得 到 了 文件 系统 相关 例 程 的 地 址 ， 去 读 取 这 个 文 
件 系统 的 超级 块 。 如 果 它 不 能 找到 一 个 匹配 的 文件 系统 名 称 ， 如 果 核 心 内 建 了 可 以 支持 核心 模 
块 按 需 加 载 〈 参 见 第 12 章 ) ， 就 可 以 继续 。 这 种 情况 下 ， 在 继续 之 前 ， 核 心 会 请 求 核心 守护 进 
程 加 载 适 当 的 文件 系统 模块 。 




































































参见 fs/super.c do mount() 


参见 fs/super.c get fs type() 
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vismount 
idev/hdat 
| 


vismntlist 












0x0301 












VES 
ea | super block file, system type 
next f 
[o Eei] "read super) 
[ume [ex 
s mounted VES 
inode 


0x0301 
42 





Figure 9.6: A Mounted File System 





第 二 步 ， 如 果 mount 传 递 的 物理 设备 还 没有 安装 ， 必 须 找到 即将 成 为 新 的 文件 系统 的 安装 点 的 
目录 的 VFS inode。 这 个 VFS inode 可 能 在 inode cache 或 者 必须 从 支撑 这 个 安装 点 的 文件 系统 的 块 
设备 上 读 取 。 一 旦 找到 了 这 个 inode， 就 检查 它 是 否 是 一 个 目录 ， 而 且 没 有 其 他 文件 系统 安装 在 
那里 。 同 一 个 目录 不 能 用 作 多 于 一 个 文件 系统 的 安装 点 。 




















这 时 ， 这 个 VFS 安 装 代码 必须 分 配 以 一 个 VFS 超 级 块 并 传递 安装 信息 给 这 个 文件 系统 的 超级 块 读 
取 例 程 。 系 统 所 有 的 VFS 超 级 块 都 保存 在 super_block 数 据 结构 组 成 的 super_blocks 向 量 表 中 ， 必 
须 为 这 次 安装 分 配 一 个 结构 。 超 级 块 读 取 例 程 必须 根据 它 从 物理 设备 读 取 得 信息 填充 VFS 超 级 
块 的 域 。 对 于 EXT2 文 件 系 统 而 言 ， 这 种 信息 的 映射 或 者 转换 相当 容易 ， 它 只 需要 读 取 EXT2 的 超 
级 块 并 填 到 VFS 超 级 块 。 对 于 其 他 文件 系统 ， 例 如 MS DOS 文 件 系 统 ， 并 不 是 这 么 简单 的 任务 。 
不 管 是 什么 文件 系统 ， 填 充 VFS 超 级 块 意味 着 必须 从 支持 它 的 块 设备 读 取 描述 该 文件 系统 的 信 
息 。 如 果 块 设备 不 能 读 取 或 者 它 不 包含 这 种 类 型 的 文件 系统 ，mount 命 令 会 失败 。 















































每 一 个 安装 的 文件 系统 用 一 个 vfsmount 数 据 结 构 摘 述 ， 参 见 图 9.6。 它 们 在 vfsmntlist 指 癌 的 一 
个 列表 中 排队 。 另 一 个 指针 ， vfsmnttail 指 问 列表 中 最 后 一 个 条 目 ， 而 mru_vfsmnt 指 针 指 问 最 
近 使 用 的 文件 系统 。 每 一 个 vfsmount 结 构 包 括 存 放 这 个 文件 系统 的 块 设备 的 设备 编号 ， 文 件 系 
统 安装 的 目录 和 一 个 指 问 这 个 文件 系统 安装 时 所 分 配 的 VFS 超 级 块 的 指针 。VFS 超 级 块 指 问 这 一 
类 型 的 文件 系统 的 file_system_type 数 据 结构 和 这 个 文件 系统 的 root inode。 这 个 inode 在 这 个 文 
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件 系统 加 载 过 程 中 一 直 驻 留 在 VFS inode cache 中 。 


参见 fs/super.c add vfsmnt() 











9.2.5 Finding a File in the Virtual File System 〈 在 虚拟 文件 系统 中 查找 一 个 文件 ) 














为 了 找到 一 个 文件 在 虚拟 文件 系统 中 的 VFS inode，VFS 必 须 依次 名 称 ， 一 次 一 个 目录 ， 找 到 中 
间 的 每 一 个 的 目录 的 VFS inode。 每 一 个 目录 查找 都 要 调用 和 文件 系统 相关 的 查找 例 程 〈 地 址 放 
在 代表 父 目 录 的 VFS inode 中 ) 。 因 为 在 文件 系统 的 VFS 超 级 块 中 总 是 有 文件 系统 的 root inode, 
并 在 超级 块 中 用 指针 指示 ， 所 以 整个 过 程 可 以 继续 。 每 一 次 查找 真实 文件 系统 中 的 inode 的 时 
候 ， 都 要 检查 这 个 目录 的 目录 组 在。 如 果 目 录 缓 在 中 没有 这 个 条 目 ， 真 实 文件 系统 要 么 从 底层 
的 文件 系统 要 么 从 inode cache 中 获得 VFS inode. 




























































































9.2.6 Creating a File in the Virtual File System (在 虚拟 文件 系统 中 创建 一 个 文件 


NM 





9.2.7 Unmounting a File System CHIZk —^ SEA) 





FRAY LE FUE is FS BO S LA RAE ES] FE, (AE a EARLE B. nnm 
^H ARV ERE HI SCPE ARSE — XB, IAS CE AREAS BE EN A. pam. SEE 
使 用 /mnt/ycdrom 目 录 或 它 的 子 目 录 ， 你 就 不 能 卸载 /mnt/cdrom WRA AR E E fi EEN a R 
文件 系统 ， 那 么 它 的 VFS inode 会 在 VFS inode cache 中 。 印 载 代码 检查 整个 inode 列 表 ， 查 找 属于 
这 个 文件 系统 所 占用 的 设备 的 inode。 如 果 这 个 安 猴 的 文件 系统 的 VFS 超 级 块 是 dirty， 就 是 它 被 
修改 过 了 ， 那 么 它 必须 被 写 回 到 磁盘 上 的 文件 系统 。 一 旦 它 写 了 磁盘， 这 个 VFS 超 级 块 占用 的 
内 存 就 被 返回 到 核心 的 空 闪 内 存 池 中 。 最 后 ， 这 个 安装 的 vmsmount 数 据 结构 也 从 vfsmntlist 中 
删除 并 释放 。 














































































































参见 fs/super.c do umount() 


参见 fs/super.c remove vfsmnt() 


8. The VFS Inode Cache 





当 游 历 安装 的 文件 系统 的 时 候 ， 它 们 的 VFS inode 不 断 地 被 读 取 ， 有 时 是 写 
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入 。 虚 拟 文件 系统 维护 一 个 inode cache， 用 于 加 速 对 于 所 有 安装 的 文件 系统 的 
访问 。 每 一 次 从 inode cache 读 出 一 个 VFS inode， 系 统 就 可 以 省 去 对 于 物理 设 
备 的 访问 。 


参见 fs/inode.c 














VFS inode cache 用 散 列 表 (hash table) 的 方式 实现 ， 条 目 是 指针 ， 指 向 既 有 
同样 hash value 的 VFS inode 列表 。 一 个 inode 的 hash value A [inode 编号 和 
包括 这 个 文件 系统 的 底层 的 物理 设备 的 设备 编号 中 计算 出 来 。 不 论 何 时 虚拟 文 
件 系 统 需 要 访问 一 个 inode， 它 首先 查看 VFS inode cache。 为 了 在 inode hash 
table 中 查找 一 个 inode， 系 统 首先 计算 它 的 hash value， 然 后 用 它 作 为 inode 
hash table 的 索引 。 这 样 得 到 了 具有 相同 hash value 的 inode 的 列表 的 指针 。 然 
后 它 一 次 读 取 所 有 的 inode 直 到 它 找 到 和 它 要 找 的 inode 具 有 相同 的 inode 编 号 和 
相同 的 设备 标识 符 的 inode 为 止 。 


如 果 可 以 在 cache 中 找到 这 个 inode， 它 的 count 就 增加 ， 表 示 它 有 了 男 一 个 用 
户 ， 文 件 系统 的 访问 继续 进行 。 和 否则 必须 找到 一 个 空闲 的 VFS inode 让 文件 系 
统 把 inode 读 入 到 内 存 。 如 何 得 到 一 个 空闲 的 inode，VFS 有 一 系列 选择 。 如 果 
系统 可 以 分 配 更 多 的 VFS inode， 它 就 这 样 做 : 它 分 配 核心 页 并 把 它们 分 成 新 
的 、 室 闲 的 inode， 放 到 inode 列 表 中 。 系 统 中 所 有 的 VFS inode 除 了 在 inode 
hash table 中 之 外 也 在 一 个 由 first_inode 指 向 的 列表 。 如 果 系 统 已 经 拥有 了 它 允 
许 有 的 所 有 的 inode， 它 必须 找到 一 个 可 以 重用 的 inode。 好 的 候选 是 哪些 使 用 
量 (count) 是 0 的 inode: 这 表示 系统 当前 没有 使 用 它们 。 真 正 重要 的 VFS 
inode， 例 如 文件 系统 的 root inode， 已 经 有 了 一 个 大 于 0 的 使 用 量 ， 所 以 永远 不 
会 选 做 重用 。 一 旦 定位 到 一 个 重用 的 候选 ， 它 就 被 清除 。 这 个 VFS inode 可 能 
是 脏 的 ， 这 时 系统 必须 等 竺 它 被 解锁 然后 才能 继续 。 在 重用 之 前 这 个 VFS 
inode 的 候选 必须 被 清除 。 















































































































































































































































虽然 找到 了 一 个 新 的 VFS inode， 还 必须 调用 一 个 和 文件 系统 相关 的 例 程 ， 用 
从 底层 的 真正 的 文件 系统 中 毒 取 得 信息 填充 这 个 inode。 当 它 填 充 的 时 候 ， 这 
个 新 的 VFS inode 的 使 用 量 为 1， 并 被 锁定 ， 所 以 在 它 填 入 了 有 效 的 信息 之 前 除 
了 它 没有 其 它 进程 可 以 访问 。 


为 了 得 到 它 实 际 需 要 的 VFS inode， 文 件 系 统 可 能 需要 访问 其 它 一 些 inode。 这 
发 生 在 你 读 取 一 个 目录 的 时 候 : 只 有 最 终 目 录 的 inode 是 需要 的 ， 但 是 中 间 目 
录 的 inode 也 必须 读 取 。 当 VFS inode cache 使 用 过 程 并 填 满 时 ， 较 少 使 用 的 
inode 会 被 废弃 ， 较 多 使 用 的 inode 会 保留 在 高 速 缓存 中 。 

















































































































9. The Directory Cache 
《目录 缓存 ) 
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为 了 加 速 对 于 常用 目录 的 访问 ，VFS 维 护 了 目录 条 目的 一 个 高 速 缓 在 。 当 真正 的 文件 系统 查找 
目录 的 时 候 ， 这 些 目录 的 细节 就 被 增加 到 了 目录 缓存 中 。 下 一 次 查找 同一 个 目录 的 时 候 ， 例 如 
列表 或 打开 里 边 的 文件 ， 就 可 以 在 目录 缓存 中 找到 。 只 有 短 的 目录 条 目 《〈 最 多 15 字 符 ) CE 
存 ， 不 过 这 是 合理 的 ， 因 为 较 短 的 目录 名 称 是 最 常用 的 。 例 如 : 当 X 服 务 器 启动 的 时 候 ，/usr 
/X11R6/bin 非 常 频繁 地 被 访问 。 



































参见 fs/dcache.c 


目录 绥 存 中 包含 一 个 hash table， 每 一 个 条 目 都 指向 一 个 具有 相同 的 hash value 的 目录 缓存 条 目 
的 列表 。Hash 函数 使 用 存放 这 个 文件 系统 的 设备 的 设备 编号 和 目录 的 名 称 来 计算 在 hash table 
中 的 偏 移 量 或 索引 。 它 允许 快速 找到 缓存 的 目录 条 目 。 如 果 一 个 缓存 在 查找 的 时 候 花 费时 间 太 
长 ， 或 根本 找 不 到 ， 这 样 的 缓存 是 没有 用 的 。 


为 了 保持 这 些 cache 有 效 和 最 新 ，VFS 保 存 了 一 个 最 近 最 少 使 用 〈《LRU) 目录 缓存 条 目的 列表 。 
当 一 个 目录 条 目 第 一 次 被 放 到 了 缓存 ， 就 是 当 它 第 一 次 被 查找 的 时 候 ， 它 被 加 到 了 第 一 级 LRU 
列表 的 最 后 。 对 于 充满 的 cache， 这 会 移 去 LRU 列 表 前 面 存 在 的 条 目 。 当 这 个 目录 条 目 再 一 次 被 
访问 的 时 候 ， 它 被 移 到 了 第 二 个 LRU cache 列 表 的 最 后 。 同 样 ， 这 一 次 它 移 去 了 第 二 级 LRU 
cache 列 表 前 面 的 二 级 缓存 目录 条 目 。 这 样 从 一 级 和 二 级 LRU 列 表 中 移 去 目录 条 目 是 没有 问题 
的 。 这 些 条 目 之 所 以 在 列表 的 前 面具 是 因为 它们 最 近 没 有 被 访问 。 如 果 被 访问 ， 它 们 会 在 列表 
的 最 后 。 在 二 级 LRU 缓 存 列表 中 的 条 目 比 在 一 级 LRU 缓 存 列 表 中 的 条 目 更 加 安全 。 因 为 这 些 条 目 
不 仅 被 查找 而 且 曾 经 重复 引用 。 
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Figure 9.7: The Buffer Cache 


2. The Buffer Cache 
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当 使 用 安装 的 文件 系统 的 时 候 ， 它 们 会 对 块 设备 产生 大 量 的 读 写 数据 块 的 请 求 。 所 
有 的 块 数据 读 写 的 请 求 都 通过 标准 的 核心 例 程 调用 ， 以 buffer_head 数 据 结构 的 形式 
传递 给 设备 驱动 程序 。 这 些 数 据 结构 给 出 了 设备 驱动 程序 需要 的 所 有 信息 : 设备 标 
识 符 唯一 标识 了 设备 ， 块 编号 告诉 了 驱动 程序 读 去 哪 一 块 。 所 有 的 块 设备 被 看 成 同 
样 大 小 的 块 的 线性 组 合 。 为 了 加 速 对 于 物理 块 设备 的 访问 ，Linux 维 护 了 一 个 块 缓冲 
区 的 缓存 。 系 统 中 所 有 的 块 绥 冲 区 动 保存 在 这 个 buffer cache， 甚 至 包括 那些 新 的 、 

未 使 用 的 缓冲 区 。 这 个 缓存 区 被 所 有 的 物理 块 设备 共享 : 任何 时 候 缓 存 区 中 都 有 许 
多 块 缓冲 区 ， 可 以 属于 任何 一 个 系统 块 设备 ,通常 具有 不 同 的 状态 。 如 果 在 buffer 
cache 中 有 有 效 的 数据 ， 这 就 可 以 节省 系统 对 于 物理 设备 的 访问 。 任 何 用 于 从 /向 块 
设备 读 取 / 写 入 数据 的 块 缓冲 区 都 进入 这 个 buffer cache。 随 着 时 间 的 推移 ， 它 可 能 
从 这 个 缓存 区 中 删除 ， 为 其 它 更 需要 的 缓冲 区 让 出 空间 ， 或 者 如 果 它 经 常 被 访问 ， 

就 可 能 一 直 留 在 缓存 区 中 。 


这 个 缓存 区 中 的 块 缓冲 区 用 这 个 缓冲 区 所 属 的 设备 标识 符 和 块 编 号 唯一 标识 。 这 个 
buffer cache 由 两 个 功能 部 分 组 成 。 第 一 部 分 是 空闲 的 块 缓冲 区 列表 。 每 一 个 同样 大 
小 的 缓冲 区 (系统 可 以 支持 的 ) 一 个 列表 。 系 统 的 空闲 的 块 缓冲 区 当 第 一 次 创建 或 
者 被 废弃 的 时 候 就 在 这 些 列 表 中 排队 。 当 前 支持 的 缓冲 区 大 小 是 512、1024、 
2048、4096 和 8192 字 节 。 第 二 个 功能 部 分 是 缓存 区 (cache)〉 本 身 。 这 是 一 个 hash 
table， 是 一 个 指针 的 癌 量 表 ， 用 于 链接 具有 相同 hash index 的 buffer。Hash index 从 
数据 块 所属 的 设备 标识 符 和 块 编号 产生 出 来 。 图 9.7 显 示 了 这 个 hash table 和 一 些 条 
目 。 块 缓冲 区 要 么 在 空 闪 列表 之 一 ， 要 么 在 buffer cache 中 。 当 它们 在 buffer cache 
的 时 候 ， 它 们 也 在 LRU 列 表 中 排队 。 每 一 个 缓冲 区 类 型 一 个 LRU 列 表 ， 系 统 使 用 这 些 
类 型 在 一 种 类 型 的 缓冲 区 上 执行 操作 。 例 如 ， 把 有 新 数据 的 缓冲 区 写 到 磁盘 上 。 绥 
冲 区 的 类 型 反映 了 它 的 状态 ，Linux 当 前 支持 以 下 类 型 ; 




























































































































































































clean 未 使 用 ， 新 的 缓冲 区 (buffer) 
locked 锁定 的 缓冲 区 ， 等 待 被 写 入 


dirty 脏 的 缓冲 区 。 包 含 新 的 有 效 的 数据 ， 将 被 写 到 磁盘 ， 但 是 直到 现在 还 没有 调度 
到 写 














的 缓冲 区 


shared 共享 
unshared 曾经 共享 的 缓冲 区 ， 但 是 现在 没有 共享 














不 论 何 时 文件 系统 需要 从 它 的 底层 的 物理 设备 读 取 一 个 缓冲 区 的 时 候 ， 它 都 试图 从 
buffer cache 中 得 到 一 个 块 。 如 果 它 不 能 从 buffer cache 中 得 到 一 个 缓冲 区 ， 它 就 从 
适当 大 小 的 空 闪 列表 中 取出 一 个 干净 的 缓冲 区 ， 这 个 新 的 缓冲 区 会 进入 到 buffer 
cache 中 。 如 果 它 需要 的 缓冲 区 已 经 在 buffer cache 中 ， 那 么 它 可 能 是 也 可 能 不 是 最 
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Bio MRCK ER, MCE PAN RAK, SCPE AR Bo i RB th UPC 
序 从 磁盘 上 读 取 适当 的 数据 块 。 


象 所 有 的 高 速 缓存 一 样 ，buffer cache 必 须 被 维护 ， 这 样 它 才 能 有 效 地 运行 ， 并 在 使 
用 buffer cache 的 块 设备 之 间 公 平地 分 配 缓存 条 目 。Linux 使 用 核心 守护 进程 bdflush 在 
人 
的 。 










































































9.3.1 The bdflush Kernel Daemon (核心 守护 进程 bdflsuh) 








核心 守护 进程 bdflush 是 一 个 简单 的 核心 守护 进程 ， 对 于 有 许多 脏 的 缓冲 区 〈 包 含 必 
须 同 时 写 到 磁盘 的 数据 的 缓冲 区 ) 的 系统 提供 了 动态 的 响应 。 它 在 系统 启动 的 时 候 
作为 一 个 核心 线程 启动 ， 相当 容易 混淆 ， 它 叫 自 己 位 “kflushd”， 而 这 是 你 用 ps 显 
示 系 统 中 的 进程 的 时 候 你 会 看 得 的 名 字 。 这 个 进程 大 多 数 时间 在 睡眠 ， 等 待 系统 中 
脏 的 缓冲 区 的 数目 增加 直到 大 巨大。 当 缓冲 区 分 配 和 释放 的 时 候 ， 就 检查 系统 中 脏 
的 缓冲 区 的 数目 ， 然 后 唤醒 bdflush。 缺 省 的 阔 值 是 60%， 但 是 如 果 系 统 非常 需要 组 
冲 区 ，bdflush 也 会 被 唤醒 。 这 个 值 可 以 用 updage 命 令 检 查 和 设 




















































































































#update —d 

bdflush version 1.4 

O: 60 Max fraction of LRU list to examine for dirty blocks 

1: 500 Max number of dirty blocks to write each time bdflush activated 
2: 64 Num of clean buffers to be loaded onto free list by refill_freelist 

3: 256 Dirty block threshold for activating bdflush in refill_freelist 

4: 15 Percentage of cache to scan for free clusters 

5: 3000 Time for data buffers to age before flushing 

6: 500 Time for non-data (dir, bitmap, etc) buffers to age before flushing 
7: 1884 Time buffer cache load average constant 


8: 2 LAV ratio (used to determine threshold for buffer fratricide). 
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Linux， 象 所 有 版 本 的 Unix 一 样 ， 把 它 的 硬 伯 
F} 不 在 文件 系统 中 占用 任何 数据 空间 ， 它 只 是 设备 驱动 程序 的 一 个 访问 点 。EXT2 文 
F} 作 为 特殊 类 型 的 inode。 有 两 种 类 型 的 设备 文件 ， 字符 和 块 特 


备 。 设 备 文 从 
件 系 统 和 Linux 的 VFS 都 把 设备 文 们 





file:///media/7C88B4DC88B495DC/redbatzero/linux 内 核 图 ..… 





不 管 什么 时 候 写 入 了 数据 ， 成 为 了 脏 的 缓冲 区 ， 所 有 的 脏 的 缓冲 区 都 链接 在 
BUF_DIRTY LRU 列 表 中 ，bdflush 会 尝试 把 合理 数目 的 缓冲 区 写 到 它们 的 磁盘 中 。 这 











个 数目 也 


9.3.2 The update Process (update 进程 ) 














可 以 用 update 命 令 检 查 和 设置 ， 缺 省 是 500《〈 见 上 例 ) 。 




















update 命令 不 仅仅 是 一 个 命令 ， 它 也 是 一 个 守护 进程 。 当 以 超级 用 户 身 份 (系统 初 


始 化 ) 运行 的 时 候 ， 它 会 定期 把 所 有 旧 的 脏 缓冲 区 写 到 磁盘 上 



































它 通过 调用 系统 服 


务 例 程 执行 这 些 任 务 ， 或 多 或 少 和 bdflush 的 任务 相同 。 当 生成 了 一 个 脏 缓冲 区 的 时 
候 ， 都 标记 上 和 它 应 该 被 写 到 它 上 自己 的 磁盘 上 的 系统 时 间 。 每 一 次 update 运 行 的 时 
候 ， 它 都 查看 系统 中 所 有 的 脏 的 缓冲 区 ， 碍 找 具 有 过 期 的 写 时 间 的 缓冲 区 。 每 一 个 


过 期 的 绥 





























冲 区 都 被 写 到 磁盘 上 。 


参见 fs/buffer.c sys bdflush() 


3. The /proc File System 


/proc 3. 44 


Linux 另 外 一 个 技巧 ) ，/proc 和 它 的 子 目录 以 及 其 中 的 文 从 








FE 系统 真实 地 体现 了 Linux 虚 拟 文件 系统 的 能 


可 以 cat /proc/devices? /proc 文件 系统 ， 象 一 个 真 ] 

















。 它 实际 上 并 不 存在 (这 也 是 





都 不 存在 。 但 是 为 什么 你 








EB XC 


F 系 统一 样 ， 也 向 虚拟 文 


件 系统 登记 自己， 但 是 当 它 的 文件 和 目录 被 打开 ，VFS 执 行 调 用 请 求 它 的 inode 的 时 














候 ，/proc 文 件 系统 才 利用 核心 中 的 信息 创建 这 些 文 


/jdevices 文 从 


/proc 文 们 


系统 ， 例 如 第 12 半 描述 的 Linux 核 心 模 块 ， 都 在 /proc 文 人 























4. Device Special Files 








殊 文 伯 


FE 。 在 核心 内 部 本 身 ， 设 备 驱 动 程序 都 实现 文 伯 


























-设备 表示 成 为 特殊 文件 ， 














件 和 和 目录。 例如， 核心 的 /proc 
F 是 从 核心 描述 它 的 设备 的 数据 结构 中 产生 出 来 的 。 


F 系 统 代表 了 一 个 用 户 可 读 的 窗口 ， 进 入 核心 的 内 部 工作 空间 。 一 些 Linux 子 
系统 中 创建 条 目 。 


例如 ，/dev/null 是 空 设 





的 基本 操作 : 你 可 以 打开 、 关 闭 等 等 。 字 


符 设备 允许 字符 模式 的 MO 操作 ， 而 块 设备 要 求 所 有 的 MO 通过 buffer cache。 当 对 于 一 个 设备 文 
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件 执行 一 个 I/0 请 求 的 时 候 ， 它 被 转 到 系统 中 适当 的 设备 驱动 程序 。 通 常 这 不 是 一 个 真正 的 设备 
驱动 程序 ， 而 是 一 个 用 于 子 系统 的 伪 设 备 驱动 程序 (pseudo-device driver) 例如 SCSI 设 备 驱 动 
程序 层 。 设 备 文 件 用 主 设备 编号 (标识 设备 类 型 ) 和 次 类 型 来 引用 (用 于 标识 单元 ， 或 者 主 类 
型 的 实例 ) 。 例 如 ， 对 于 系统 中 的 第 一 个 IDE 控 制 器 上 的 IDE 磁 盘 ， 主 设备 编号 是 3，IDE 人 磁盘 的 
第 一 个 分 区 的 次 设备 编号 应 该 是 L， 所 以 ，ls -| /dev/hdal 输 出 




















































































































$ brw-rw---- 1 root disk 3, 1 Nov 24 15:09 /dev/hda1 








参见 /include/linux/major.h 中 所 有 Linux 的 主 设备 编号 























在 核心 中 ， 个 设备 用 一 个 kdev_t 数 据 类 型 唯一 描述 。 这 个 类 型 有 两 个 字 节 长 ， 第 一 个 包括 
设备 的 次 设备 编号 ， 第 二 个 包括 主 设备 编号 。 上 面 的 IDE 设 备 在 核心 中 保存 为 0x0301。 代 表 一 
个 块 或 者 字符 设备 的 EXT2 inode 把 设备 的 主 和 次 设备 号 放 在 它 的 第 一 个 直接 块 指针 那里 。 当 它 
被 VFS 读 取 的 时 候 ， 代 表 它 的 VFS inode 数 据 结构 的 |_rdev 域 被 设 成 正确 的 设备 标识 符 。 






































Z& Winclude/linux/kdev. t.h 


Chapter 10 


Networks (网 络 ) 














Linux 和 网 络 几 乎 是 同义词 。 实 际 上 Linux 是 Internet 或 WWW 的 产物 。 它 的 开发 者 和 用 户 使 用 web 
交换 信息 、 想 法 、 代 码 而 Linux 自 身 也 常用 于 支持 一 些 组 织 的 联网 需求 。 本 章 描述 了 Linux 如 何 文 
持 统称 为 TCPVIP 的 网 络 协议 。 



































TCP/IP 协 议 设 计 用 来 支持 连接 在 ARPANET 上 的 计算 机 之 间 的 通讯 。ARPANET 是 美国 政府 投资 的 
一 个 美国 的 研究 网 络 。ARPANET 是 一 些 网 络 概念 的 先驱 ， 例 如 报 文 交 换 和 协议 分 层 ， 让 一 种 协 
议 利 用 其 它 协议 提供 的 服务 。ARPANET 于 1988 年 退出 ， 但 是 它 的 后 继 者 (NSF NET 和 Internet) 
发 展 的 甚至 更 大 。 现 在 所 知 的 World Wide Web 是 在 ARPANET 中 发 展 的 ， 它 本 身 也 是 由 TCP/YIP 协 
议 文 持 的 。Unix 在 ARPANET 上 大 量 使 用 ， 第 一 个 发 布 的 网 络 版 的 Unix 是 4.3BSD。Linux 的 网 络 实 
现 是 基于 4.3BSD 的 模型 ， 它 支持 BSD socket (和 一 些 扩展 ) 和 全 系列 的 TCP/IP 网 络 功能 。 选 择 
这 种 编程 接口 是 因为 它 的 流行 程度 ， 而 且 可 以 帮助 程序 在 Linux 和 其 它 Unix 平 台 之 间 移 植 。 
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10.1 An Overview of TCP/IP Networking (TCP/IP 网 络 概览 》 





本 三 为 TCPJIP 网 络 的 主要 原理 给 出 了 一 个 概览 。 这 并 不 是 一 个 详尽 的 接 述 。 要 更 详细 的 描述 ， 
阅读 第 10 本 参考 书 〈 附 录 ) 。 














在 一 个 IP 网 络 中 ， 每 一 个 机 器 都 分 配 一 个 IP 地 址 ， 这 是 一 个 32 位 的 数字 ， 唯 一 标识 这 一 台 机 
器 。WWW 是 一 个 非常 巨大 、 不 断 增长 的 IP 网 络 ， 每 一 个 连接 在 上 面 的 机 器 都 分 配 了 一 个 独 一 无 
二 的 IP 地 址 。IP 地 址 用 点 分 隔 的 四 个 数学 表示 ， 例 如 ，16.42.0.9。IP 地 址 实际 上 分 为 两 个 部 
4]: 网 络 地 址 和 主机 地 址 。 这 些 地 址 的 大 小 (尺寸 ) 可 能 不 同 (有 几 类 IP 地 址 ) ， 以 16.42.0.9 
为 例 ， 网 络 地 址 是 16.42， 主 机 地 址 是 0.9。 主 机 地 址 可 以 进一步 划分 成 为 子 网 Csubnetwork) 
和 主机 地 址 。 再 次 以 16.42.0.9 为 例 ， 子 网 地 址 可 以 是 16.42.0， 主 机 地 址 为 16.42.0.9。 对 于 IP 
地 址 进行 进一步 划分 允许 各 个 组 织 划分 它们 自己 的 网 络 。 例 如 ， 假 设 16.42 是 ACME 计 算 机 公司 
的 网 络 地 址 ，16.42.0 可 以 是 子 网 0，16.42.1 可 以 是 子 网 1。 这 些 子 网 可 以 在 分 离 的 大 楼 里 ， 也 
许 通 过 电话 专线 或 者 甚至 通过 微波 连接 。IP 地 址 由 网 络 管理 员 分 配 ， 使 用 IP 子 网 是 分 散 网 络 管 
理 任务 的 一 个 好 办 法 。IP 子 网 的 管理 员 可 以 自由 地 分 配 他 们 自己 子 网 内 的 IP 地 址 。 







































































但 是 ， 通 常 IP 地 址 难于 记忆 ， 而 名 字 更 容易 记忆 。Linux.acme.com 比 16.42.0.9 更 好 记 。 必 须 使 
用 一 种 机 制 把 网 络 名 字 转 换 为 上 P 地 址 。 这 些 名 字 可 以 静态 地 存在 /etc/hosts 文 件 中 或 者 让 Linux 
询问 一 个 分 布 式 命名 服务 器 (Distributed Name Server DNS) 来 解析 名 字 。 这 种 情况 下 ， 本 地 
主机 必须 知道 一 个 或 多 个 DNS 服 务 器 的 IP 地 址 ， 在 /etc/resolv.conf 中 指定 。 
































不 管 什么 时 候 你 连接 另外 一 台 机 器 的 时 候 ， 比 如 读 取 一 个 web page， 都 要 使 用 它 的 IP 地 址 和 那 
台 机 器 交换 数据 。 这 种 数据 包括 在 IP 报 文 (packet. 中 ， 每 一 个 报 文 都 有 一 个 IP 头 《包括 源 和 目 
标 机 器 的 IP 地 址 ， 一 个 校 验 和 和 其 它 有 用 的 信息 。 这 个 校 验 和 是 从 IP 报 文 的 数据 中 得 到 的 ， 可 
以 证 IP 报 文 的 接收 者 判断 传输 过 程 中 IP 报 文 是 否 损坏 〈 可 能 是 一 个 噪音 很 大 的 电话 线 ) 。 应 用 
程序 传输 的 数据 可 能 被 分 解 成 容易 处 理 的 更 小 的 报 文 。IP 数 据 报 文 的 大 小 依赖 于 连接 的 介质 而 
变化 : 以 太 网 报 文通 常 大 于 PPP 报 文 。 目 标 主 机 必须 重新 装配 这 些 数据 报 文 ， 然 后 才能 交 给 接 
收 程 序 。 如 果 你 通过 一 个 相当 慢 的 串 行 连接 访问 一 个 包括 大 量 图 形 图 像 的 web 页 ， 你 就 可 以 用 
图 形 的 方式 看 出 数据 的 分 解 和 重组 。 


连接 在 同一 个 IP 子 网 的 主机 可 以 互相 直接 发 送 IP 报 文 ， 而 其 它 的 IP 报 文 必须 通过 一 个 特殊 的 主机 
(网 关 ) 发 送 。 网 关 (或 路 由 器 〉 连接 在 多 于 一 个 子 网 上 ， 它 们 会 把 一 个 子 网 上 接收 的 IP 报 文 
重新 发 送 到 另 一 个 子 网 。 例 如 ， 如 果子 网 16.42.1.0 和 16.42.0.0 通 过 一 个 网 关连 接 ， 那 么 所 有 
从 子 网 0 发 送 到 子 网 1 的 报 文 必须 先 发 送 到 网 关 ， 这 样 才能 转发 。 本 地 的 主机 建立 一 个 路 由 表 ， 
让 它 可 以 把 要 转发 的 IP 报 文 发 送 到 正确 的 机 器 。 对 于 每 一 个 IP 目 标 ， 在 路 由 表 中 都 有 一 个 条 
目 ， 告 诉 Linux 要 到 达 目 标 需 要 先 把 IP 报 文 发 送 到 那 一 台 主 机 。 这 些 路 由 表 是 动态 的 ， 而 且 当 应 
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用 程序 使 用 网 络 和 网 络 拓扑 变化 的 时 候 不 断 改 变 。 


IP 协 议 是 传输 层 协 议 ， 被 其 他 协议 使 用 ， 携 带 它们 的 数据 。 传 输 控 制 协议 CTCPO 是 一 个 可 靠 的 
端 到 端的 协议 ， 使 用 IP 传 送 和 接收 它 的 报 文 。 象 IP 报 文 有 自己 的 头 一 样 ，TCP 也 有 自己 的 头 。 
TCP 是 一 个 面向 连接 的 协议 ， 两 个 网 络 应 用 程序 通过 一 个 虚拟 的 连接 连接 在 一 起 ， 其 至 它们 中 
间 可 能 会 有 许多 子 网 、 网 关 和 路 由 器 。TCP 在 两 个 应 用 程序 之 间 可 靠 地 传送 和 接收 数据 ， 并 且 
保证 不 会 有 丢失 和 重复 的 数据 。 当 TCP 使 用 IP 传 送 它 的 报 文 的 时 候 ， 在 IP 报 文中 包含 的 数据 就 是 
TCP 报 文 自 喘 。 每 一 个 通讯 的 主机 的 IP 层 负责 传送 和 接收 IP 报 文 。 用 户 数 据 报 协议 UDP) 也 使 
用 IP 层 传送 它 的 报 文 ， 但 是 不 象 TCP，UDP 不 是 一 个 可 靠 的 协议 ， 它 只 提供 数据 报 服 务 。 其 它 协 
议 也 可 以 使 用 IP 意 味 着 当 接 收 到 IP 报 文 ， 接 收 的 IP 层 必须 知道 把 这 个 IP 报 文中 包含 的 数据 交 给 哪 
一 个 上 层 协 议 。 为 此 ， 每 一 个 IP 报 文 的 头 都 有 一 个 字 节 ， 包 含 一 个 协议 标识 符 。 当 TCP 请 求 IP 层 
传输 一 个 IP 报 文 的 时 候 IP 报 文 的 头 就 说 明 它 包含 一 个 TCP 报 文 。 接 收 的 IP 层 ， 使 用 这 个 协议 标识 
符 来 决定 把 接收 到 的 数据 向 上 传递 给 哪 一 个 协议 ， 在 这 种 情况 下 ， 是 TCP 层 。 当 应 用 程序 通过 
TCP/IP 通 讯 的 时 候 ， 它 们 不 但 必须 指定 目标 的 IP 地 址 ， 也 要 指定 目标 应 用 程序 的 端口 (port) 地 
址 。 一 个 端口 地 址 唯一 标识 一 个 应 用 程序 ， 标 准 的 网 络 应 用 程序 使 用 标准 的 端口 地 址 : 例如 
Web 服务 器 使 用 端口 80。 这 些 已 经 注册 的 端口 地 址 可 以 在 /etc/services 中 查 到 。 












































































































































































































































协议 分 层 不 仅仅 停留 在 TCP、UDP 和 IP。IP 协 议 本 身 使 用 许多 不 同 的 物理 介质 和 其 它 IP 主 机 传输 
IP 报 文 。 这 些 介质 自己 也 可 能 增加 它们 自己 的 协议 头 。 这 样 的 例子 有 以 太 网 层 、PPP 和 SLIP。 一 
个 以 太 网 允许 许多 主机 同时 连接 在 一 个 物理 电缆 上 。 每 一 个 传送 的 以 太 帧 可 以 被 所 有 连接 的 主 
机 看 到 ， 所 以 每 一 个 以 太 网 设备 都 有 一 个 独一无二 的 地 址 。 每 一 个 传送 到 那个 地 址 的 以 太 网 帧 
会 被 那个 地 址 的 主机 接收 ， 而 被 连接 到 这 个 网 络 的 其 它 主 机 忽略 掉 。 这 个 独一无二 的 地 址 当 每 
一 个 以 太 网 设备 制造 的 时 候 内 建 在 设备 里 边 ， 通 常 保存 在 以 太 网 卡 的 SROM 中 。 以 太 地 址 由 6 个 
字 节 长 ， 例 如 ， 可 能 是 08-00-2b-00-49-4A。 一些 以 太 网 地 址 保留 用 于 多 点 广播 ， 用 这 种 目标 地 
址 发 送 的 以 太 网 帧 会 被 网 络 上 的 所 有 的 主机 接收 。 因 为 以 太 网 帧 中 可 能 运载 许多 不 同 的 协议 
(作为 数据 ，， 和 IP 报 文 一 样 ， 它 们 的 头 中 都 包含 一 个 协议 标识 符 。 这 样 以 太 网 层 可 以 正确 地 
接收 IP 报 文 并 把 数据 传输 到 IP 层 。 
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Figure 10.1: TCP/IP Protocol Layers 


为 了 通过 多 种 连接 协议 ， 例 如 通过 以 太 网 来 传输 IP 报 文 ，IP 层 必须 找 出 这 个 IP 主 机 的 以 太 网 地 
址 。 这 是 因为 IP 地 址 只 是 一 个 寻 址 的 概念 ， 以 太 网 设备 自己 有 自己 的 物理 地 址 。IP 地 址 可 以 由 
网 络 管理 员 根据 需要 分 配 和 再 分 配 ， 而 网 络 便 件 则 只 响应 具有 它 自己 物理 地 址 的 以 太 网 帧 ， 或 
者 特殊 的 多 点 广播 地 址 〈 所 有 的 机 器 都 必须 接收 ) 。Linux 使 用 地 址 解析 协议 CARP) 让 机 器 把 
IP 地 址 转换 成 真实 的 硬件 地 址 例如 以 太 网 地 址 。 为 了 得 到 一 个 IP 地 址 所 联系 的 硬件 地 址 ， 一 个 
主机 会 发 送 一 个 ARP 请 求 包 ， 包 含 它 希 望 转换 的 IP 地 址 ， 发 送 到 一 个 多 点 广播 地 址 ， 让 网 络 上 所 
有 的 点 都 可 以 收 到 。 具 有 这 个 IP 地 址 的 目标 主机 用 一 个 ARP 回 应 来 应 答 ， 这 中 间 包 括 了 它 的 物理 
硬件 地 址 。APR 不 仅仅 限制 在 以 太 网 设备 ， 它 也 可 以 解析 其 它 物理 介 质 的 IP 地 址 ， 例 如 FDDI。 
不 能 进行 ARP 的 设备 会 有 标记 ， 这 样 Linux 就 不 需要 试图 对 它们 进行 ARP。 也 有 一 个 相反 的 功 
能 ， 反 向 ARP， 或 RARP， 把 物理 地 址 转换 到 IP 地 址 。 这 用 于 网 关 ， 回 应 对 于 代表 远 端 网 络 的 IP 
地 址 的 ARP 请 求 。 

































































10.2 The Linux TCP/IP Networking Layers (Linux TCP/IP 网 络 分 层 ) 





象 网 络 协 议 一 样 ， 图 10.2 显 示 了 Linux 对 于 internet 协议 地 址 族 的 实现 就 好 像 一 系列 连接 的 软件 
Li. BSD socket 由 只 和 BSD socket 相 关 的 通用 的 socket 管 理 软件 来 文 持 。 文 持 这 些 的 是 INET 
socket 层 ， 它 管理 以 |P 为 基础 的 协议 TCcP 和 UDP 的 通讯 端点 。UDP 是 一 个 无 连接 的 协议 ， 而 TCP 
是 一 个 可 靠 的 端 到 端的 协议 。 当 传送 UDP 报 文 的 时 候 ，Linux 不 知道 也 不 关心 它们 是 否 安全 到 达 
目的 地 。TCP 报 文 进行 了 编号 ，TCP 连 接 的 每 一 端 都 要 确保 传送 的 数据 正确 地 接收 到 。IP 层 包括 
了 网 际 协议 Cinternet Protocol) 的 代码 实现 。 这 种 代码 在 传送 的 数据 前 增加 IP 头 ， 而 且 知道 如 
何 把 进来 的 IP 报 文 转送 到 TCP 或 者 UDP 层 。 在 IP 层 之 下 ， 支 持 Linux 联 网 的 是 网 络 设 备 ， 例 如 PPP 
和 以 太 网 。 网 络 设备 并 非 总 是 表现 为 物理 设备 : 其 中 一 些 比如 loopback 设 备 只 是 纯粹 的 软件 设 
备 。 不 象 标准 的 Linux 设 备用 mknod 命 令 创 建 ， 网 络 设备 只 有 在 底层 的 软件 找到 并 且 初 始 化 它们 
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之 后 才 出 现 。 你 只 有 在 建立 俄 一 个 包含 恰当 的 以 太 望 设备 驱动 程序 的 核心 之 后 你 才能 看 到 设备 
文件 /dev/eth0O。ARP 协 议 位 于 IP 层 和 支持 ARP 的 协议 之 间 。 
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Figure 10.2: Linux Networking Laycrs 


10.3 The BSD Socket Interface (BSD socket 接口 ) 
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这 是 一 个 通用 的 接口 ， 不 仅仅 支持 多 种 形式 的 联网 ， 也 是 一 种 进程 间 通 讯 机 制 。 一 个 socket 描 
述 了 通讯 连接 的 一 端 ， 两 个 通讯 进程 每 一 个 都 会 有 一 个 socket， 描 述 它 们 之 间 通 讯 连接 的 自己 
部 分 。Socket 可 以 想象 成 一 种 特殊 形式 的 管道 ， 但 是 和 管道 不 同 ，socket 对 于 可 以 容纳 的 数据 
量 没有 限制 。Linux 文 持 几 种 类 型 的 socket， 这 些 类 叫做 address families (地 址 族 ) 。 这 是 因为 
每 一 类 都 有 自己 通讯 寻 址 方式 。Linux 文 持 以 下 socket address families 或 domain: 


















































UNIX Unix domain sockets, 

INET The Internet address family supports communications via 
TCP/IP protocols 

AX25 Amateur radio X25 

IPX Novell IPX 

APPLETALK Appletalk DDP 


X25 X25 


有 几 种 socket 类 型 ， 每 一 种 都 代表 了 连接 上 文 持 的 服务 的 类 型 。 并 非 所 有 的 address families 都 
支持 所 有 类 型 的 服务 。Linux BSD socket 支 持 以 下 socket 类 型 。 





Stream 这 种 socket 提 供 了 可 靠 的 、 双 同 顺 序 的 数据 流 ， 保 证 传输 过 程 中 数据 不 会 丢失 、 损 坏 或 
重复 。Stream socket 在 INET address family 中 由 TCP 协 议 支 持 


Datagram 这 种 socket 也 提供 了 双向 的 数据 传输 ， 但 是 和 stream socket 不 同 ， 它 不 保证 消息 会 到 
达 。 甚 至 它 到 达 了 也 不 保证 它们 会 顺序 到 达 或 没有 重复 或 损坏 。 这 种 类 型 的 socket 在 Internet 
address family 中 由 UDP 协议 支持 。 


RAW 这 允许 进程 直接 (所 以 叫 “raw”) 访问 底层 的 协议 。 例 如 ， 可 以 向 一 个 以 太 网 设备 打开 
一 个 raw socket， 观 察 raw IP 数 据 流 。 

















Reliable Delivered Messages 这 很 象 数 据 报 但 是 数据 保证 可 以 到 达 


Sequenced Packets & stream socket 但 是 数据 报 文大 小 是 固定 的 





Packet 这 不 是 标准 的 BSD socket 类 型 ， 它 是 Linux 特 定 的 扩展 ， 人 允许 进程 直接 在 设备 层 访问 报 文 
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使 用 socket 通 讯 的 进程 用 一 个 客户 服务 器 的 模型 。 服 务 器 提供 服务 ， 而 客户 使 用 这 种 服务 。 一 
个 这 样 的 例子 是 一 个 Web 服务 器 ， 提 供 web page 和 一 个 web 客户 (或 浏览 器 ，)， 读 取 这 些 页 。 
使 用 socket 的 服务 器 ， 首 先 创 建 一 个 socket， 然 后 为 它 bind 一 个 名 字 。 这 个 名 字 的 格式 和 socket 
的 address family 有 关 ， 它 是 服务 器 的 本 地 地 址 。Socket 的 名 字 或 地 址 用 sockaddr 数 据 结 构 指 
定 。 一 个 INET socket 会 绑 定 一 个 IP 端 口 地 址 。 注 册 的 端口 编号 可 以 在 /etc/services 中 看 到 : 例 
如 ，web 服 务 器 的 端口 是 80。 在 socket 上 绑 定 一 个 地 址 后 ， 服 务 器 就 listen 进 来 的 对 于 绑 定 的 地 
址 的 连接 请 求 。 请 求 的 发 起 者 ， 客 户 ， 创 建 一 个 socket， 并 在 上 面 执行 一 个 连接 请 求 ， 指 定 服 
务 器 的 目标 地 址 。 对 于 一 个 INET socket， 服 务 器 的 地 址 是 它 的 IP 地 址 和 它 的 端口 地 址 。 这 些 进 
来 的 请 求 必须 通过 大 量 的 协议 层 ， 找 到 它 的 路 径 ， 然 后 就 在 服务 器 的 监听 端口 等 待 。 一 旦 服务 
器 接收 到 了 进来 的 请 求 ， 它 可 以 接受 (accept) 或 者 拒绝 它 。 如 果 要 接受 进来 的 请 求 ， 服 务 器 
必须 创建 一 个 新 的 socket 来 接受 它 。 一 旦 一 个 socket 已 经 用 于 监听 进来 的 连接 请 求 ， 它 就 不 能 
再 用 于 支持 一 个 连接 。 连 接 建立 之 后 ， 两 端 都 可 以 自由 地 发 送 和 接收 数据 。 最 后 ， 当 一 个 连接 
不 再 需要 的 时 候 ， 它 可 以 被 关闭 。 必 须 小 心 ， 保 证 正确 地 处 理 正在 传送 的 数据 报 文 。 
















































































一 个 BSD socket 上 的 操作 的 确切 意义 依赖 于 它 底层 的 地 址 族 。 建 立 一 个 TCP/JIP 连 接 和 建立 一 个 
业余 无 线 电 X.25 连 接 有 很 大 的 不 同 。 象 虚拟 文件 系统 一 样 ，Linux 在 和 独立 的 地 址 族 相 关 的 软件 
所 文 持 的 BSD socket 层 抽象 了 BSD socket 和 应 用 程序 之 间 的 socket 接 口 。 当 核心 初始 化 的 时 
候 ， 建 立 在 核心 的 地 址 族 就 向 BSD socket 接 口 登 记 自 己 。 稍 后 ， 当 应 用 程序 创建 和 使 用 BSD 
socket 的 时 候 ， 在 BSD socket 和 它 的 支撑 地 址 族 之 间 建 立 一 个 联系 。 这 种 联系 是 通过 交叉 的 数 
据 结 构 和 地 址 族 支 持 例 程 表 实现 的 。 例 如 ， 当 应 用 程序 创建 一 个 新 的 socket 的 时 候 ，BSD 
socket 接 口 就 使 用 地 址 族 相 关 的 socket 创 建 例 程 。 




































































当 配 置 核心 的 时 候 ， 一 组 地 址 族 和 协议 都 建立 到 了 protocols 向 量 表 中 。 每 一 个 都 用 它 的 名 称 
《例如 “INET”) 和 它 的 初始 化 例 程 的 地 址 来 代表 。 当 启动 的 时 候 ，socket 接 口 初始 化 ， 每 一 
个 协议 的 初始 化 代码 都 要 被 调用 。 对 于 socket 地 址 族 ， 它 们 里 边 会 登记 一 系列 协议 操作 。 这 都 
是 一 些 例 程 ， 每 一 个 都 执行 一 个 和 地 址 族 相关 的 特殊 操作 。 登 记 的 协议 操作 保存 在 pops 向 量 表 
中 ， 这 个 向 量 表 保 存 指 向 proto_ops 数 据 结 构 的 指针 。Proto_ops 数 据 结构 包括 协议 族 类 型 和 一 批 
和 特定 地 址 族 相关 的 socket 操 作 例 程 的 指针 。Pops 向 量 表 用 地 址 族 的 标识 符 作 为 索引 ， 例 如 
Internet address family 的 标识 符 CAF INETZE2) 。 









































8 Winclude/linux/net.h 


10.4 The INET Socket Layer 


INET socket 层 支持 包含 TCP/IP 协 议 的 internet address family。 和 象 上 面 讨论 的 ， 这 些 协议 是 分 层 
的 ， 每 一 个 协议 都 使 用 其 它 协议 的 服务 。Linux 的 TCP/IP 代 码 和 数据 结构 反映 了 这 种 分 层 。 它 和 
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BSD socket 层 的 接口 是 通过 网 络 初始 化 的 时 候 它 向 BSD socket 层 登记 的 internet address family 
socket 操 作 进行 的 。 这 些 和 其 它 登记 的 地 址 族 一 起 放 在 pops 问 量 表 中 。BSD socket 层 通过 调用 
在 登记 的 proto_ops 数 据 结 构 中 的 INET 层 的 socket 支 持 例 程 完 成 它 的 工作 。 例 如 ， 一 个 地 址 族 是 
INET 的 BSD socket 创 建 请 求 会 使 用 底层 的 INET socket 创 建 函 数 。 每 一 次 操作 BSD socket 层 都 把 
代表 BSD socket 的 socket 数 据 结 构 传 递 给 INET 层 。INET socket 层 使 用 它 自己 的 数据 结构 
socket， 连 接 到 BSD socket 数 据 结构 ， 而 不 是 用 TCPV/IP 相 关 的 信息 把 BSD socket 搞 乱 。 这 种 连 
接 参 见 图 10.3。 它 使 用 BSD socket 中 的 data 指 针 把 sock 数 据 结构 和 BSD socket 数 据 结构 连接 起 
来 。 这 意味 着 后 续 的 INET socket 调 用 可 以 很 容易 地 获取 这 个 sock 数据 结构 。 在 创建 的 时 候 sock 
数据 结构 的 协议 操作 指针 也 被 建立 ， 这 些 指针 依赖 于 请 求 的 协议 。 如 果 请 求 TCP， 则 sock 数 据 
结构 的 协议 操作 指针 会 指向 TCP 连 接 所 需要 的 一 系列 TCP 协 议 的 操作 。 
















































































参见 include/net/sock.h 


10.4.1 Creating a BSD Socket (创建 一 个 BSD Socket) 














创建 一 个 新 的 socket 的 系统 调用 需要 传递 它 的 地 址 族 的 标识 符 、socket 的 类 型 和 协议 。 首 先 ， 
用 请 求 的 地 址 族 在 pops 向 量 表 中 查找 一 个 匹配 的 地 址 族 。 它 可 能 是 一 个 使 用 核心 模块 实现 的 特 
殊 的 地 址 族 ， 如 果 这 样 ，kerneld 核 心 进程 必须 加 载 这 个 模块 ， 我 们 才能 继续 。 然 后 分 配 一 个 新 
的 socket 数 据 结构 来 表示 这 个 BSD socket。 实 际 上 这 个 socket 数 据 结构 物理 上 是 VFS inode 数 据 
结构 的 一 部 分 ， 分 配 一 个 socket 实 际 上 就 是 分 配 一 个 VFS inode。 这 看 起 来 比较 奇怪 ， 除 非 你 考 
虑 让 socket 可 以 用 和 普通 文件 一 样 的 方式 进行 操作 。 象 所 有 文件 都 用 VFS inode 数据 结构 表示 一 
样 ， 为 了 支持 文件 操作 ，BSD socket 也 必须 用 一 个 VFS inode 数 据 结构 表示 。 




























































































这 个 新 创建 的 BSD socket 数 据 结构 包括 一 个 指针 指向 和 地 址 族 相 关 的 socket 例 程 ， 这 个 指针 被 
设置 到 从 pops 癌 量 表 中 取出 的 proto_ops 数 据 结 构 。 它 的 类 型 被 设置 成 请 求 的 socket 类 
AY; SOCK_STREAM、SOCK_DGRAM 等 等 其 中 之 一 ， 然 后 用 proto_ops 数 据 结构 中 保存 的 地 址 调 
用 和 地 址 族 相关 的 创建 例 程 。 
































然后 从 当前 进程 的 fd 向 量 表 中 分 配 一 个 空闲 的 文件 描述 符 ， 它 所 指向 的 file 数 据 结构 也 被 初始 
化 。 这 包括 设置 文件 操作 指针 ， 指 向 BSD socket 接 口 支持 的 BSD socket 文 件 操作 例 程 。 所 有 将 
来 的 操作 会 被 定 问 到 socket 接 口 ， 依 次 通过 调用 支撑 的 地 址 族 的 操作 例 程 传递 到 相应 的 地 址 
族 。 
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Figure 10.3: Linux BSD Socket Data Structures 


10.4.2 Binding an Address to an INET BSD Socket (为 一 个 INET BSD socket 绑 定 一 个 地 址 ) 


为 了 监听 进来 的 网 际 连接 请 求 ， 每 一 个 服务 器 必须 创建 一 个 INET BSD socket 并 把 自己 的 地 址 绑 
定 到 它 上 面 。Bind 的 操作 大 部 分 由 INET socket 层 处 理 ， 另 一 些 需 要 底层 的 TCP 和 UDP 协议 层 的 
文 持 。 已 经 绑 定 了 一 个 地 址 的 socket 不 能 用 于 其 它 通 讯 。 这 意味 着 这 个 socket 的 状态 必须 是 
TCP_CLOSE。 传 递 给 bind 操 作 的 sockaddr 包 括 要 绑 定 的 IP 地 址 和 一 个 端口 号 《可 选 ) 。 通 常 ， 绑 
定 的 地 址 会 是 分 配给 支持 INET 地 址 族 的 网 络 设备 的 地 址 之 中 的 一 个 ， 而 且 接 口 必须 是 开启 的 并 
能 够 使 用 。 你 可 以 用 ifconfig 命 令 看 系统 中 哪 一 个 网 络 接 口 当前 是 激活 的 。IP 地 址 也 可 以 是 IP 广 
播 地 址 (全 是 1 或 0， 。 这 是 意味 着 “发 送 给 每 一 个 人 ”的 特殊 地 址 。 如 果 这 个 机 器 作为 一 个 透 
明 的 proxy 或 者 防火 墙 ， 这 个 IP 地 址 也 可 以 设置 成 任何 IP 地 址 。 不 过 只 有 具有 超级 用 户 特权 的 进 
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程 可 以 绑 定 任意 iP 地 址 。 这 个 绑 定 的 IP 地 址 被 存在 sock 数 据 结构 的 recv_addr 和 saddr 域 中 。 它 们 
分 别 用 于 hash 查 找 和 发 送 IP 地 址 。 端 口号 是 可 选 的 ， 如 果 没 有 设置 ， 会 向 支撑 的 网 络 请 求 一 个 
空 闪 的。 按照 惯例 ， 小 于 1024 的 端口 写 不 能 被 没有 超级 用 户 特权 的 进程 使 用 。 如 果 底 层 的 网 络 
分 配 端 口号 ， 它 总 是 分 配 一 个 大 于 1024 的 端口 。 















































当 底 层 的 网 络 设备 接收 报 文 的 时 候 ， 这 些 报 文 必须 被 转 到 正确 的 INET 和 BSD socket 才 能 被 处 
理 。 为 此 ，UDP 和 TCP 维 护 hash table， 用 于 查找 进来 的 IP 信 息 的 地 址 ， 把 它们 转 到 正确 的 
socket/sock 对 。TCP 是 一 个 面 癌 连接 的 协议 ， 所 以 处 理 TCP 报 文 比 处 理 UDP 报 文 所 包括 的 信息 要 
多 。 












































UDP 维护 一 个 已 经 分 配 的 UDP 端口 的 hash table，udp_table。 这 包括 sock 数 据 结构 的 指针 ， 用 一 
个 根据 端口 号 的 hash 函 数 作为 索引 。 因 为 UDP hash table 比 允许 的 端口 号 要 小 的 多 〈udp_hash 
只 有 128，UDP_HTABLE_SIZE) 表 中 的 一 些 条 目 指 同一 个 sock 数 据 结 构 的 链表 ， 用 每 一 个 sock 
的 next 指针 连接 在 一 起 。 

















TCP 更 加 复杂 ， 因 为 它 维护 几 个 hast table 。 但 是 ， 在 绑 定 操作 中 ，TCP 实 际 上 并 不 把 绑 定 的 
sock 数 据 结 构 加 到 它 的 hash table 中 ， 它 只 是 检查 请 求 的 端口 当前 没有 被 使 用 。 在 listen 操 作 中 
sock 数 据 结 构 才 加 到 TCP 的 hash tablet 。 











10.4.3 Making a Connection to an INET BSD Socket 





























一 旦 创建 了 一 个 socket， 如 果 没 有 用 于 监 昕 进来 的 连接 请 求 ， 它 就 可 以 用 于 建立 向 外 的 连接 请 
求 。 对 于 无 连接 的 协议 ， 比 如 UDP， 这 个 socket 操 作 不 需要 做 许多 ,但 是 对 于 面向 连接 的 协议 
如 TCP， 它 涉及 在 两 个 应 用 程序 之 间 建 立 一 个 虚拟 电路 。 


























一 个 向 外 的 连接 只 能 在 一 个 正确 状态 的 INET BSD socket 上 进行 ， 就 是 说 还 没有 建立 连接 ， 而 且 
没有 用 于 监听 进来 的 连接 。 这 意味 着 这 个 BSD socket 数 据 结构 必须 在 SS_UNCONNECTED 状 态 。 

UDP 协议 不 在 两 个 应 用 程序 之 间 建 立 虚 拟 连 接 ， 所 有 发 送 的 消息 都 是 数据 报 ， 发 出 的 消息 可 能 
到 到 也 可 能 没有 到 达 它 的 目的 地 。 但 是 ， 它 也 支持 BSD socket 的 connect 操 作 。 在 一 个 UDP INET 
BSD socket 上 的 一 个 连接 操作 只 是 建立 远程 应 用 程序 的 地 址 ， 它 的 IP 地 址 和 它 的 IP 端 口号 。 另 
外 ， 它 也 要 建立 一 个 路 由 表 条 目的 缓存 区 ， 这 样 ， 在 这 个 BSD socket 上 发 送 的 UDP 数据 报 不 需 
要 在 检查 路 由 表 数 据 库 〈 除 非 这 个 路 由 变 成 无 效 ) 。 这 个 缓存 的 路 由 信息 被 INET sock 数 据 结构 
中 的 ip_route_cache 指 针 指 向 。 如 果 没 有 给 出 地 址 信息 ， 这 个 BSD socket 发 送 的 消息 就 自动 使 用 
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这 个 缓存 的 路 由 和 IP 地 址 信息 。UDP 把 sock 的 状态 改变 成 为 TCP_ESTABLISHED。 


| 








对 于 在 一 个 TCP BSD socket 上 进行 的 连接 操作 ，TCP 必 须 建立 一 个 包括 连接 信息 的 TCP 消 息 ， 并 
发 送 到 给 定 的 IP 目 标 。 这 个 TcP 消 息 包括 连接 的 信息 : 一 个 独一无二 的 起 始 消息 顺序 编号 、 发 起 
主机 可 以 管理 的 消息 的 最 大 尺寸 、 发 送 和 接收 的 窗口 大 小 等 等 。 在 TCP 中 ， 所 有 的 消息 都 编 了 
号 ， 初 始 顺序 编号 用 作 第 一 个 消息 编号 。Linux 选 择 一 个 合理 的 随机 数 以 避免 恶意 的 协议 攻击 。 
每 一 个 从 TCP 连 接 的 一 端 发 送 ， 被 另 一 端 成 功 接收 的 消息 被 确认 ， 告 诉 它 成 功 地 到 达 ， 而 且 没 
有 损坏 。 没 有 确认 的 消息 会 被 重 发 。 发 送 和 接收 窗口 大 小 是 确认 前 允许 的 消息 的 数目 。 如 果 接 
收 端 的 网 络 设备 支持 的 最 大 消息 尺寸 比较 小 ， 则 这 个 连接 会 使 用 两 个 中 间 最 小 的 一 个 。 执 行 问 
外 的 TCP 连 接 请 求 的 应 用 程序 现在 必须 等 待 目 标 应 用 程序 的 响应 ， 是 接受 还 是 拒绝 这 个 连接 请 
求 。 对 于 期 望 进来 的 消息 的 TCP sock， 它 被 加 到 了 tcp_listening_hash， 这 样 进来 的 TCP 消 有 息 可 以 
定向 到 这 个 sock 数 据 结构 。TCP 也 启动 计时 器 ， 这 样 如 果 目 标 应 用 程序 对 于 请 求 不 响应 ， 向 外 
的 连接 请 求 会 超时 。 







































































































































































10.4.4 Listening on an INET BSD Socket 


一 且 一 个 socket 拥 有 了 一 个 绑 定 的 地 址 ， 它 就 可 以 监听 指定 这 个 绑 定 地 址 的 进来 的 连接 请 求 。 
一 个 网 络 应 用 程序 可 以 不 绑 定 地 址 直接 在 一 个 socket 上 监听 ， 这 种 情况 下 ，INET socket 层 找到 
一 个 未 用 的 端口 号 〈 对 于 这 种 协议 而 言 》， 自 动 把 它 绑 定 到 这 个 socket 上 。 这 个 socket 的 listen 
函数 把 socket 变 成 TCP_LISTEN 的 状态 ， 并 且 执 行 所 需 的 和 网 络 相 关 的 工作 ， 一 边 允 许 进来 的 连 
接 。 









































对 于 UDP socket， 改 变 socket 的 状态 已 经 足够 ， 但 是 TCP 已 经 激活 它 现在 要 把 socket 的 sock 数 据 
结构 加 到 它 的 两 个 hash table 中 。 这 是 tcp_bound_hash 和 tcp_listening_hash 表 。 这 两 个 表 都 通过 
一 个 基于 IP 端 口号 的 hash 函 数 进 行 索引 。 





不 论 何 时 接收 到 一 个 对 于 激活 的 监听 socket 的 进来 的 TCP 连 接 请 求 ，TCP 都 要 建立 一 个 新 的 sock 
数据 结构 表示 它 。 这 个 sock 数 据 结构 在 它 最 终 被 接受 之 前 成 为 这 个 TCP 连 接 的 buttom half。 它 也 
克隆 包含 连接 请 求 的 进来 的 sk_buff 并 把 它 排 在 监听 的 sock 数 据 结 构 的 receive_queue 队 列 中 。 这 
个 克隆 的 sk_buff 包 括 一 个 指针 ， 指 向 这 个 新 创建 的 sock 数 据 结 构 。 











10.4.5 Accepting Connection Requests 
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UDP 不 支持 连接 的 概念 ， 接 受 INET socket 的 连接 请 求 上 只 应 用 于 TCP 协 议 ， 在 一 个 监听 的 sock 上 
进行 接受 Caccept) 操作 会 从 原来 的 监听 的 socket 克 隆 出 一 个 新 的 socket 数 据 结构 。 然 后 这 个 
accept 操 作 传 递 给 支撑 的 协议 层 ， 在 这 种 情况 下 ， 是 INET 去 接受 任何 进来 的 连接 请 求 。 如 果 底 
层 的 协议 ， 比 如 UDP 不 支持 连接 ，INET 协 议 层 的 accept 操 作 会 失败 。 和 否则 ， 连 接 的 请 求 会 传递 
到 真正 的 协议 ， 在 这 里 ， 是 TCP。 这 个 accept 操 作 可 能 是 阻塞 ， 也 可 能 是 非 阻 塞 的 。 在 非 阻塞 的 
情况 下 ， 如 果 没 有 需要 accept 的 进来 的 连接 ， 这 个 accept 操 作 会 失败 ， 而 新 创建 的 socket 数 据 结 
构 会 被 废弃 。 在 阻塞 的 情况 下 ， 执 行 accept 操 作 的 网 络 应 用 程序 会 被 加 到 一 个 等 待 队 列 ， 然 后 
挂 起 ， 直 到 接收 到 一 个 TCP 的 连接 请 求 。 一 旦 接收 到 一 个 连接 请 求 ， 包 含 这 个 请 求 的 sk_buff 会 
被 废弃 ， 这 个 sock 数 据 结构 被 返回 到 INET socket 层 ， 在 这 里 它 被 连接 到 先前 创建 的 新 的 socket 
数据 结构 。 这 个 新 的 socket 的 文件 描述 符 (fd) 被 返回 给 网 络 应 用 程序 ， 应 用 程序 就 可 以 用 这 
个 文件 描述 符 对 这 个 新 创建 的 INET BSD socket fT socket E 


































































































10.5 The IP Layer (IP 层 ) 


10.5.1 Socket Buffers 























使 用 分 成 许多 层 ， 每 一 层 使 用 其 它 层 的 服务 ， 这 样 的 网 络 协议 的 一 个 问题 是 ， 个 协议 都 需 
要 在 传送 的 时 候 在 数据 上 增加 协议 头 和 尾 ， 而 在 处 理 接收 的 数据 的 时 候 需 要 删除 。 这 让 协议 之 
闻 传 送 数据 缓冲 区 相当 困难 ， 因 为 每 一 层 都 需要 找 出 它 的 特定 的 协议 头 和 尾 在 哪里 。 一 个 解决 
方法 是 在 每 一 层 都 拷贝 缓冲 区 ， 但 是 这 样 会 没有 效率 。 替 代 的 ，Linux 使 用 socket 缓冲 区 或 者 说 
sock_buffs 在 协议 层 和 网 络 设 备 驱 动 程序 之 间 传 输 数 据 。Sk_buffs 包 括 指针 和 长 度 域 ， 允 许 每 一 
协议 层 使 用 标准 的 函数 或 方法 操纵 应 用 程序 数据 。 
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sk. bufl 


Packet 
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| transmitted 





Figure 10.4: The Socket Buffer isk-buff) 


图 10.4 显 示 了 sk_buff 数 据 结构 : 每 一 个 sk_buff 都 有 它 关 联 的 一 块 数 据 。Sk_buff 有 四 个 数据 指 
针 ， 用 于 操纵 和 管理 socket 绥 冲 区 的 数据 














参见 include/linux/skbuff.h 


head 指向 内 存 中 的 数据 区 域 的 起 始 。 在 sk_buff 和 它 相 关 的 数据 块 被 分 配 的 时 候 确定 的 。 


Data 指向 协议 数据 的 当前 起 始 为 止 。 这 个 指针 随 着 当前 拥有 这 个 sk_buff 的 协议 层 不 同 而 变 
化 。 


Tail 指向 协议 数据 的 当前 结尾 。 同 样 ， 这 个 指针 也 随 拥 有 的 协议 层 不 同 而 变化 。 
End 指向 内 存 中 数据 区 域 的 结尾 。 这 是 在 这 个 sk_buff 分 配 的 时 候 确定 的 。 





另 有 两 个 长 度 字段 fen 和 truesize， 分 别 描述 当前 协议 报 文 的 长 度 和 数据 缓冲 区 的 总 长 度 。 
Sk_buff 处 理 代 人 码 提 供 了 标准 的 机 制 用 于 在 应 用 程序 数据 上 增加 和 删除 协议 头 和 尾 。 这 种 代码 安 
全 地 操纵 了 sk_buff 中 的 data、tail 和 len 字 段 。 
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Push 这 把 data 指针 向 数据 区 域 的 起 始 移动 ， 并 增加 Ien 字 段 。 用 于 在 传送 的 数据 前 面 增加 数据 
或 协议 头 


Z& Winclude/linux/skbuff.h skb push() 














Pull 把 data 指 针 从 数据 区 域 起 始 向 结尾 移动 ， 并 减少 len 字 段 。 用 于 从 接收 的 数据 中 删除 数据 或 
协议 头 。 


2 Winclude/linux/skbuff.h skb pull() 














Put 把 tail 指 针 向 数据 区 域 的 结尾 移动 并 增加 Ilen 子 段 ， 用 于 在 传输 的 数据 尾部 增加 数据 或 协议 信 
4 


JUN 





Z& Winclude/linux/skbuff.h skb_put() 














trim 把 tail 指 针 向 数据 区 域 的 开始 移动 并 减少 len 字 段 。 用 于 从 接收 的 数据 中 删除 数据 或 协议 尾 





Z& Winclude/linux/skbuff.h skb trim() 




















sk_buff 数 据 结构 也 包括 一 些 指 针 ， 使 用 这 些 指针 ， 在 处 理 过 程 中 这 个 数据 结构 可 以 存储 在 
sk_buff 的 双 问 环形 链表 中 。 有 通用 的 sk_buff 例 程 ， 在 这 些 列 表 的 头 和 尾 中 增加 sk_buffs 和 删除 
其 中 的 sk_buff。 














10.5.2 Receiving IP Packets 








第 8 章 描述 了 Linux 的 网 络 设备 张 动 程序 如 何 建立 到 核心 以 及 被 初始 化 。 这 产生 了 一 系列 device 
数据 结构 ， 在 dev_base 列 表 中 链接 在 一 起 。 每 一 个 device 数 据 结构 描述 了 它 的 设备 并 提供 了 一 组 
回调 例 程 ， 当 需要 网 络 驱 动 程序 工作 的 时 候 网 络 协议 层 可 以 调用 。 这 些 函 数 大 多 数 和 传输 数据 
以 及 网 络 设备 的 地 址 有 关 。 当 一 个 网 络 设备 从 它 的 网 络 上 接收 到 数据 报 文 的 时 候 ， 它 必须 把 毛 
收 到 的 数据 转换 到 sk_buff 数 据 结 构 。 这 些 接收 的 sk_buff 在 接收 的 时 候 被 网 络 张 动 程序 增加 到 
backlog 队 列 。 如 果 backlog 队 列 增长 的 太 大 ， 那 么 接收 的 sk_buff 就 被 废弃 。 如 果 有 工作 要 执 
行 ， 这 个 网 络 的 button half 标 记 成 准备 运行 。 





























参见 net/core/dev.c netif_rx() 























当 网 络 的 bottom half 处 理 程 序 被 调度 程序 调用 的 时 候 ， 它 首先 处 理 任何 等 待 传送 的 网 络 报 文 ， 
然后 才 人 处理 sk_buff 的 backlog ”backlo 队 列 ， 确 定 接收 到 的 报 文 需要 传送 到 那个 协议 层 。 当 Linux 
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网 络 层 初始 化 的 时 候 ， 每 一 个 协议 都 登记 自己， 在 ptype_all 列 表 或 者 ptype_base hash tablet 
Jil —^ packet. type 的 数据 结构 。 这 个 packet type 数据 结构 包括 协议 类 型 ， 一 个 网 络 驱 动 设备 的 
指针 ， 一 个 协议 的 数据 接收 处 理 例 程 的 指针 和 一 个 指针 ， 指 向 这 个 列表 或 者 hash table 下 一 个 
packet type 数据 类 型 。Ptype_all 链 表 用 于 探测 (snoop) 从 任意 网 络 设备 上 接收 到 的 所 有 的 数据 
报 文 ， 通 常 不 使 用 。Ptype_base hash table 使 用 协议 标识 符 hash， 用 于 确定 哪 一 种 协议 应 该 接收 
进来 的 网 络 报 文 。 网 络 的 bottom half 把 进来 的 sk_buff 的 协议 类 型 和 任 一 表 中 的 一 个 或 多 个 
packet _ type 条 目 进行 匹配 。 协 议 可 能 会 匹配 一 个 或 多 个 条 目 ， 例 如 当 疾 测 所 有 的 网 络 通信 的 时 
候 ， 这 时 ， 这 个 sk_buff 会 被 克隆 。 这 个 sk_buff 被 传递 到 匹配 的 协议 的 处 理 例 程 。 


















































参见 net/core/dev.c net. bh() 


8 Wnet/ipv4/ip. input.c ip recw() 


10.5.3 Sending IP Packets 


























报 文 在 应 用 程序 交换 数据 的 过 程 中 传送 ， 或 者 也 可 能 是 为 了 文 持 已 经 建立 的 连接 或 为 了 建立 连 
接 而 由 网 络 协议 产生 产生 。 不 管 数据 用 什么 方式 产生 ， 都 建立 一 个 包含 数据 的 sk_buff， 并 当 它 
通过 协议 层 的 时 候 增加 许多 头 。 



































这 个 sk_buff 需 要 传递 到 进行 传输 的 网 络 设 备 。 但 是 首先 ， 协 议 ， 例 如 IP， 需 要 决定 使 用 哪 一 个 
网 络 设备 。 这 依赖 于 这 个 报 文 的 最 佳 路 由 。 对 于 通过 modem 连 接 到 一 个 网 络 的 计算 机 ， 比 如 通 
过 PPP 协 议 ， 这 种 路 由 选择 比较 容易 。 报 文 应 该 要 么 通过 loopback 设 备 传送 给 本 地 主机 ， 要 么 传 
送 到 PPP modem 连 接 的 另 一 端的 网 关 。 对 于 连接 到 以 太 网 的 计算 机 而 言 ， 这 种 选择 比较 困难 ， 
因为 网 络 上 连接 了 许多 计算 机 。 
































对 于 传送 的 每 一 个 IP 报 文 ，IP 使 用 路 由 表 解 析 目 标 IP 地 址 的 路 由 。 对 于 每 一 个 IP 目 标 在 路 由 表 中 
进行 的 查找 ， 成 功 就 会 返回 一 个 描述 要 使 用 的 路 由 的 rable 数 据 结构 。 包 括 使 用 的 源 IP 地 址 ， 网 
络 device 数 据 结构 的 地 址 ， 有 时 候 还 会 有 一 个 预先 建立 的 便 件 头 。 这 个 硬件 头 和 网 络 设备 相 
关 ， 包 仿 源 和 目的 物理 地 址 和 其 它 同 介质 相关 的 信息 。 如 果 网 络 设备 是 以 太 网 设备 ， 硬 件 头 会 
在 图 10.1 中 显示 ， 其 中 的 源 和 目的 地 址 会 是 物理 的 以 太 网 地 址 。 硬 件 头 和 路 由 缓存 在 一 起 ， 因 
为 在 这 个 路 由 传送 的 每 一 个 IP 报 文 都 需要 奶 加 这 个 头 ， 而 建立 这 个 头 需 要 时 间 。 硬 件 头 可 能 

含 必须 使 用 ARP 协 议 才 能 解析 的 物理 地 址 。 这 时 ， 发 出 的 报 文 会 暂停 ， 直 到 地 址 解析 成 功 。 一 
旦 硬件 地 址 被 解析 ， 并 建立 了 硬件 头 ， 这 个 硬件 头 就 被 缓存 ， 这 样 以 后 使 用 这 个 接口 的 |P 报 文 
就 不 需要 进行 ARP 。 




























































































参见 include/net/route.h 


136 of 212 04/21/2011 11:34 AM 





Linux Kernel 核 心中 文 手册 file:///media/7C88B4DC88B495DC/redbatzero/linux 内 核 图 ..… 





10.5.4 Data Fragmentation 





每 一 个 网 络 设备 都 有 一 个 最 大 的 报 文 尺寸 ， 它 无 法 传送 或 接收 更 大 的 数据 报 文 。IP 协 议 允许 这 
种 数据 ， 会 把 数据 分 割 成 网 络 设备 可 以 处 理 的 报 文大 小 的 更 小 的 单元 。IP 协 议 头 包 含 一 个 分 害 
字段 ， 包 含 一 个 标记 和 分 割 的 偏 移 量 。 





























当 要 传输 一 个 IP 报 文 的 时 候 ，IP 查 找 用 来 发 送 IP 报 文 的 网 络 设备 。 通 过 IP 路 由 表 来 查找 这 个 设 
备 。 每 一 个 设备 都 有 一 个 字段 描述 它 的 最 大 传输 单元 〈 字 节 ) ， 这 是 mtu 字 段 。 如 果 设 备 的 mtu 
比 等 待 传送 的 IP 报 文 的 报 文 尺寸 小 ， 那 么 这 个 IP 报 文 必须 被 分 割 到 更 小 的 碎片 《mtu 大 小 ) 。 每 
一 个 碎片 用 一 个 sk_buff 代 表 : 它 的 IP 头 标记 了 它 被 分 制 ， 以 及 这 个 IP 报 文 在 数据 中 的 偏 移 量 。 
最 后 一 个 报 文 被 标记 为 最 后 一 个 IP 碎 片 。 如 果 在 分 割 成 碎片 的 过 程 中 ，IP 无 法 分 配 一 个 
sk_buff， 这 次 传送 就 失败 。 






































接收 IP 碎 片 比 发 送 更 难 ， 因 为 IP 雁 片 可 能 以 任意 顺序 被 接收 ， 而 且 它 们 必须 在 重组 之 前 全 部 接 
收 到 。 每 一 次 一 个 IP 报 文 被 接收 的 时 候 ， 都 检查 它 是 否 是 一 个 |P 碎 片 。 收 到 一 个 消息 的 第 一 个 
碎片 ，IP 就 建立 一 个 新 的 ipq 数 据 结构 ， 并 连接 到 等 待 组装 的 IP 磁 上 方 的 ipqueue 列 表 中 。 当 更 多 的 
IP 磁 片 接收 到 的 时 候 ， 就 查 到 正确 的 ipq 数 据 结构 并 建立 一 个 新 的 ipfrag 数 据 结构 来 描述 这 个 碎 
片 。 每 一 个 ipq 数 据 结构 都 唯一 描述 了 一 个 成 为 碎片 的 IP 接 收 帧 ， 包 括 它 的 源 和 目标 IP 地 址 ， 上 
层 协 议 标 识 符 和 这 个 IP 帧 的 标识 符 。 当 接收 到 所 有 的 碎片 的 时 候 ， 它 们 被 组 装 在 一 起 成 为 一 个 
单一 的 sk_buff， 并 传递 到 下 一 个 协议 层 去 处 理 。 每 一 个 ipq 包 括 一 个 计时 器 ， 每 一 次 接收 到 一 个 
有 效 的 肆 片 的 时 候 就 重新 启动 。 如 果 这 个 计时 器 过 期 ， 这 个 ipq 数 据 结构 和 它 的 ipfrag 束 被 去 
除 ， 并 假设 这 个 消息 在 传输 过 程 中 丢失 了 。 然 后 由 高 层 的 协议 负责 重新 传输 这 个 消息 。 





























参见 net/ipv4/ip_input.c ip. rcw() 


10.6 The Address Resolution Protocol (ARP) 








地 址 解析 协议 的 任务 是 提供 IP 地 址 到 物理 硬件 地 址 的 转换 ， 例 如 以 太 网 地 址 。IP 在 它 把 数据 
《用 一 个 sk_buff 的 形式 ) 传送 到 设备 驱动 程序 进行 传送 的 时 候 才 需要 这 种 转换 。 它 进行 一 些 检 
查 ， 看 这 个 设备 是 否 需要 一 个 硬件 头 ， 如 果 是 ， 这 个 报 文 的 硬件 头 是 否 需要 重建 。Linux 缓 存 硬 
件 头 以 免 频 繁 地 重建 。 如 果 人 硬件 头 需要 重建 ， 它 就 调用 和 设备 相关 的 硬件 头 重 建 例 程 。 所 有 的 
一 合 设备 使 用 相同 的 通用 的 头 重建 例 程 ， 然 后 使 用 ARP 服 务 把 目标 的 IP 地 址 转换 到 物理 地 址 。 
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参见 net/ipv4/ip_output.c ip_build_xmit() 


参见 net/ethernet/eth.c rebuild header() 





ARP 协 议 本 身 非 常 简单 ， 包 含 两 种 消息 类 型 ， ARP 请 求 和 ARP 应 答 。ARP 请 求 包 括 需 要 转换 的 IP 
地 址 ， 应 答 (希望 ) 包括 转换 的 IP 地 址 和 硬件 地 址 。ARP 请 求 被 广播 到 连接 到 网 络 的 所 有 的 主 
机 ， 所 以 ， 对 于 一 个 以 太 网 所 有 连 在 以 太 网 上 的 机 器 都 可 以 看 到 这 个 ARP 请 求 。 拥 有 这 个 请 求 
中 包括 的 IP 地 址 的 机 器 会 回应 这 个 ARP 请 求 ， 用 包含 它 自己 物理 地 址 的 ARP 应 答 。 


























Linux 中 的 ARP 协 议 层 围绕 着 一 个 arp_table 数 据 结 构 的 表 而 建立 。 每 一 个 描述 一 个 IP 和 物理 地 址 
的 对 应 。 这 些 条 目 在 IP 地 址 需要 转换 的 时 候 创建 ， 随 着 时 间 推 移 变 得 陈旧 的 时 候 被 删除 。 每 一 
个 arp_table 数 据 结 构 包 含 以 下 域 : 


























Last used 这 个 ARP 条 目 上 一 次 使 用 的 时 间 





Last update 这 个 ARP 条 目 上 一 次 更 新 的 时 间 





Flags 描述 这 个 条 目的 状态 ， 它 是 否 完成 等 等 


IP address 这 个 条 目 描 述 的 IP 地 址 





Hardware address 转换 (翻译 ) 的 人 硬件 地 址 





Hardware header 指 加 一 个 缓存 的 便 件 头 的 指针 














Timer 这 是 一 个 timer_list 的 条 目 ， 用 于 让 没有 回应 的 ARP 请 求 超时 
Retries 这 个 ARP 请 求 重 试 的 次 数 


Sk buff queue 等 待 解 析 这 个 IP 地 址 的 sk_buff 条 上 日 的 列表 


ARP 表 包含 一 个 指针 Carp tables[]3&z€) 的 表 ， 把 arp_table 的 条 目 链接 在 一 起 。 这 些 条 目 被 组 
存 ， 以 加 速 对 它们 的 访问 。 每 一 个 条 目 用 它 的 IP 地 址 的 最 后 两 个 字 节 做 表 的 索引 进行 查找 ， 然 
吾 跟 踪 这 个 条 目 链 ， 直 到 找到 正确 的 条 目 。Linux 也 缓存 从 arp_table 条 目 预先 建立 的 硬件 头 ， 用 
hh_cache 数 据 结构 的 形式 进行 缓存 。 





























m 








当 请 求 一 个 IP 地 址 转换 的 时 候 ， 没 有 对 应 的 arp_table 条 目 ，ARP 必 须发 送 一 个 ARP 请 求 消息 。 它 
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在 表 中 创建 一 个 新 的 arp_table 条 目 ， 并 把 需要 地 址 转换 的 包括 了 网 络 报 文 的 sk_buff 放 到 这 个 新 
的 条 目的 sk_buff 队 列 。 它 发 出 一 个 ARP 请 求 并 让 ARP 过 时 计时 器 运行 。 如 果 没 有 回应 ，ARP 会 重 
试 几 次 。 如 果 仍 旧 没 有 回应 ，ARP 会 删除 这 个 arp_table 条 目 。 任 何 排队 等 待 这 个 IP 地 址 进行 转换 
的 sk_buff 数 据 结构 会 被 通知 ， 由 传输 它们 的 上 层 协议 负责 处 理 这 种 失败 。UDP 不 关心 丢失 的 报 
文 ， 但 是 TCP 会 在 一 个 建立 的 TCP 连 接 上 试图 重新 发 送 。 如 果 这 个 IP 地 址 的 属 主 用 它 的 硬件 地 址 
应 答 ， 这 个 arp_table 条 目标 记 为 守成， 任何 排队 的 sk_buff 会 被 从 对 队列 中 删除 ， 继 续 传送 。 硬 
件 地 址 被 号 到 每 一 个 sk_buff 的 硬件 头 中 。 
































ARP 协 议 层 也 必须 回应 指明 它 的 IP 地 址 的 ARP 请 求 。 它 登记 它 的 协议 类 型 (ETH_P_ARP) ， 产 生 
一 个 packet type 数据 结构 。 这 意味 着 网 络 设备 接收 到 的 所 有 的 ARP 报 文 都 会 传 给 它 。 象 ARP 应 答 
一 样 ， 这 也 包括 ARP 请 求 。 它 使 用 接收 设备 的 device 数 据 结构 中 的 便 件 地 址 产生 ARP 应 答 。 




















网 络 拓扑 结构 不 断 变化 ，IP 地 址 可 能 被 重新 分 配 到 不 同 的 硬件 地 址 。 例 如 ， 一 些 拨号 服务 为 它 
建立 的 每 一 个 连接 分 配 一 个 IP 地 址 。 为 了 让 ARP 表 中 包括 最 新 的 条 目 ，ARP 运 行 一 个 定期 的 计时 
器 ， 检 查 所 有 的 arp_table 条 目 ， 看 哪 一 个 超时 了 。 它 非常 小 心 ， 不 删除 包含 包含 一 个 或 多 个 组 
存 的 硬件 头 的 条 目 。 删 除 这 些 条 目 比较 危险 ， 因 为 其 它 数据 结构 依赖 它们 。- 一 些 arp_table 条 目 
是 永久 的 ， 并 被 标记 ， 所 以 它们 不 会 被 释放 。ARP 表 不 能 增长 的 太 大 : 每 一 个 arp_table 条 目 都 
要 消耗 一 些 核心 内 存 。 每 当 需 要 分 配 一 个 新 的 条 目 而 ARP 表 到 达 了 它 的 最 大 尺寸 的 时 候 ， 就 查 
找 最 旧 的 条 目 并 删除 它们 ， 从 而 修整 这 个 表 。 























10.7 IP Routing 


IP 路 由 功能 确定 发 向 一 个 特定 的 IP 地 址 的 IP 报 文 应 该 向 哪里 发 送 。 当 传送 IP 报 文 的 时 候 ， 会 有 许 
多 选择 。 目 的 地 是 否 可 以 到 达 ? 如 果 可 以 ， 应 该 使 用 哪 一 个 网 络 设备 来 发 送 ? 是 不 是 有 不 止 一 
个 网 络 设备 可 以 用 来 到 达 目 的 地 ， 哪 一 个 最 好 ? IP 路 由 数据 库 维 护 的 信息 可 以 回答 这 些 问题 。 
有 两 个 数据 库 ， 最 重要 的 是 转发 信息 数据 库 〈Forwarding Information Database) 。 这 个 数据 库 
是 已 知 PP 目 标 和 它们 最 佳 路 由 的 详尽 的 列表 。 另 一 个 小 一 些 ， 更 快 的 数据 库 ， 路 由 缓存 (route 
cache) 用 于 快速 查找 IP 目 标的 路 由 。 象 所 有 绥 存 一 样 ， 它 必须 只 包括 最 常 访问 的 路 由 ， 它 的 内 
容 是 从 转发 信息 数据 库 中 得 来 的 。 





















































路 由 通过 BSD socket 接 口 的 IOCTL 请 求 增加 和 删除 。 这 些 请 求 被 传递 到 有 具体 的 协议 去 处 理 。INET 
协议 层 只 允许 具有 超级 用 户 权限 的 进程 增加 和 删除 IP 路 由 。 这 些 路 由 可 以 是 固定 的 ， 或 者 是 动 
态 的 ， 不 断 变 化 的 。 多 数 系统 使 用 固定 路 由 ， 除 非 它们 本 身 是 路 由 器 。 路 由 器 运行 路 由 协议 ， 
不 断 地 检查 所 有 已 知 IP 目 标的 可 用 的 路 由 。 不 是 路 由 器 的 系统 叫做 末端 系统 (end system) 。 
路 由 协议 用 守护 进程 的 形式 来 实现 ， 例 如 GATED， 它 们 也 使 用 BSD socket 接 口 的 IOCTL 来 增加 和 
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删除 路 由 。 


10.7.1 The Route Cache 


不 论 何 时 查找 一 个 IP 路 由 的 时 候 ， 都 首先 在 路 由 缓存 中 检查 匹配 的 路 由 。 如 果 在 路 由 缓存 中 没 
有 匹配 的 路 由 ， 才 查找 转发 信息 数据 库 。 如 果 这 里 也 找 不 到 路 由 ，IP 报 文 发 送 会 失败 ， 并 通知 
应 用 程序 。 如 果 路 由 在 转发 信息 数据 库 而 不 在 路 由 缓存 中 ， 就 为 这 个 路 由 产生 一 个 新 的 条 目 并 
增加 到 路 由 缓存 中 。 路 由 缓存 是 一 个 表 Cip rt hash table) ， 包 括 指向 rtable 数 据 结构 链 的 指 
针 。 路 由 表 的 索引 是 基于 IP 地 址 最 小 两 字 节 的 hash 函数 。 这 两 个 字 节 通常 在 目标 中 有 很 大 不 
同 ， 让 hash value 可 以 最 好 地 分 散 。 每 一 个 rtable 条 目 包括 路 由 的 信息 : 目标 IP 地 址 ， 到 达 这 个 IP 
地 址 要 使 用 的 网 络 设备 〈device 结 构 ) ， 可 以 使 用 的 最 大 的 信息 尺寸 等 等 。 它 也 有 一 个 引用 计 
数 器 (refrence count) ， 一 个 使 用 计数 器 (usage count) 和 上 次 使 用 的 时 间 惟 (在 jiffies 
中 ) 。 每 一 次 使 用 这 个 路 由 的 时 候 这 个 引用 计数 器 就 增加 ， 显 示 利 用 这 个 路 由 的 网 络 连接 数 
目 ， 当 应 用 程 序 停止 使 用 这 个 路 由 的 时 候 就 减少 。 使 用 计数 器 每 一 次 查找 路 由 的 时 候 就 增加 ， 
用 来 让 这 个 hash 条 目 链 的 rtable 条 目 变 老 。 路 由 缓存 中 所 有 条 目的 最 后 使 用 的 时 间 惟 用 于 定期 检 
查 这 个 rtable 是 否 太 老 。 如 果 这 个 路 由 最 近 没 有 使 用 ， 它 就 从 路 由 表 中 废弃 。 如 果 路 由 保存 在 路 
由 缓存 中 ， 它 们 就 被 排序 ， 让 最 常用 的 条 目 在 hash 链 的 前 面 。 这 意味 着 当 查 找 路 由 的 时 候 找到 
这 些 路 由 会 更 快 。 


参见 net/ipv4/route.c check expire() 

































































































































































































































































10.7.2 The Forwarding Information Database 
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fib zones 


fib node 


fib. next 





"m 
fib info 
Lihim | 






fz hash, table 


fz. nent 
tz. logmask 





fib node 
fih next 
fib info 





Figure 10,5: The Forwarding Information Database 








RS RE CÉ10.5 fa) 包含 了 当时 从 IP 的 观点 看 待 系统 可 用 的 路 由 。 它 是 非常 复杂 的 
数据 结构 ， 昌 然 它 已 经 进行 了 合理 有 效 的 安排 ， 但 是 它 对 于 参考 而 言 并 不 是 一 个 快速 的 数据 
库 。 特 别 是 如 果 每 一 个 传输 的 IP 报 文 都 在 这 个 数据 库 中 查找 目标 会 非常 慢 。 这 也 是 为 什么 要 有 
路 由 缓存 ; 加 速 已 经 知道 最 佳 路 由 的 IP 报 文 的 传送 。 路 由 缓存 从 这 个 转发 信息 数据 库 得 到 ， 表 
示 了 它 最 常用 的 条 目 。 















































每 一 个 IP 子 网 用 一 个 fib_zone 数 据 结构 表示 。 所 有 这 些 都 被 fib_zones hash 表 指向 。Hash 索 引 取 
自 IP 子 网 掩 码 。 所 有 通 癌 同一 子 网 的 路 由 都 用 排 在 每 一 个 fib_zone 数 据 结构 的 fz_list 队 列 中 得 的 
成 对 的 fib_node 和 fib_info 数 据 结 构 来 描述 。 如 果 这 个 子 网 的 路 由 数目 变 得 太 大 ， 就 生成 一 个 
hash table， 让 fib_node 数 据 结构 的 查找 更 容易 。 











对 于 同一 个 IP 子 网 ， 可 能 存在 多 个 路 由 ， 这 些 路 由 可 能 穿 过 多 个 网 关 之 一 。IP 路 由 层 不 允许 使 
用 相同 的 一 个 网 关 对 于 一 个 子 网 有 多 于 一 个 路 由 。 换 句 话说 ， 如 果 对 于 一 个 子 网 有 多 个 路 由 ， 
那么 要 保证 每 一 个 路 由 都 是 用 不 同 的 网 天。 和 每 一 个 路 由 关联 的 是 它 的 量度 ‘metric) ， 这 是 
用 来 衡量 这 个 路 由 的 益处 。 一 个 路 由 的 量度 ， 基 本 上 ， 是 它 在 到 达 目 标 子 网 之 前 必须 跳 过 的 子 
网 数目 。 这 个 量度 越 高 ， 路 由 越 差 。 
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Chapter 11 


Kernel Mechanisms (核心 机 制 》 


本 章 描 述 了 Linux 核 心 需要 提供 的 一 些 一 般 的 任务 和 机 制 ， 让 核心 的 其 余部 分 可 以 有 效 地 工作 。 





11.1 Bottom Half Handling 


通常 在 核心 中 会 有 这 样 的 时 候 : 你 不 希望 执行 工作 。 一 个 好 例子 是 在 中 断 处 理 的 过 程 中 。 当 引 
发 了 中 断 ， 处 理 器 停止 它 正 在 执行 的 工作 ， 操 作 系 统 把 中 断 传递 到 适当 的 设备 驱动 程序 。 设 备 
驱动 程序 不 应 该 花费 太 多 时 间 来 处 理 中 断 ， 因 为 在 这 段 时 间 ， 系 统 中 的 其 他 东西 都 不 能 运行 。 
通常 一 些 工作 可 以 在 稍 后 的 时 候 进 行 。Linux 发 明了 boffom half 处 理 程序 ， 这 样 设备 驱动 程序 和 
Linux 核 心 的 其 它 部 分 可 以 把 可 以 稍 后 作 的 工作 排队 。 图 11.1 显 示 了 同 pottom half 处 理 相 关 的 核 
心 数据 结构 。 有 多 达 32 个 不 同 的 bottom half 处 理 程序 : bh_base 是 一 个 指针 的 向 量 表 ， 指 向 核心 
的 每 一 个 bottom half 处 理 例 程 ，bh_active 和 bh_mask 按 照 安 装 和 激活 了 哪些 处 理 程 序 设置 它们 
的 位 。 如 果 bh_mask 的 位 N 设 置 ， 则 bh_base 中 的 第 N 个 元 素 会 包含 一 个 bottom half 例 程 的 地 址 。 
如 果 bh_active 的 第 N 位 设置 ， 那 么 一 旦 调度 程序 认为 合理 ， 就 会 调用 第 N 位 的 bottom half 处 理 程 
序 。 这 些 索引 是 静态 定义 的 : timer bottom half 处 理 器 优先 级 最 高 〈 索 引 0) ，console bottom 
half 处 理 程序 优先 级 次 之 〈index 1) 等 等 。 通 常 bottom half 处 理 例 程 会 有 和 它 关 联 的 任务 列 
表 。 例 如 这 个 immediate buttom half handler 通过 包含 需要 立即 执行 的 任务 的 immediate 任 务 队 
列 〈tq_immediate) 来 工作 。 
























































8 NLinclude/linux/interrupt.h 


bh_active 
31 M 0 bh base 


(timers) 


bh, mask 


Figure 11.1: Bottom Half Handling Data Structures 
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task queue tq. struct Iq. struct 





Figure 11.2: A Task Queue 





核心 的 一 些 bottom half 处 理 程 序 和 设备 有 关 ， 但 是 其 它 的 是 更 一 般 的 : 














TIMER 这 个 处 理 程序 在 每 一 次 系统 定时 时 钟 中 断 被 标记 成 为 激活 ， 用 来 驱动 核心 的 时 钟 队 列 机 
制 


CONSOLE 这 个 处 理 程序 用 来 处 理 控制 台 消 息 

















TQUEUE 这 个 处 理 程序 用 来 处 理 TTY 消 息 























NET 这 个 处 理 程 


e 


部 用 来 处 理 通用 的 网 络 处 理 
IMMEDIATE 通用 的 处 理 程序 ， 一 些 设备 驱动 程序 用 来 排列 稍 后 进行 的 工作 






































设备 驱动 程序 或 者 核心 的 其 它 部 分 ， 需 要 调度 稍 后 进行 的 工作 的 时 候 ， 它 束 在 适当 的 系统 队列 
中 增加 这 个 工作 ， 例 如 时 钟 队列 ， 然 后 就 发 送信 号 到 核心 ， 一 些 bottom half 处 理 需 要 进行 。 它 
通过 设置 bh_active 中 的 合适 的 位 来 做 到 这 点 。 如 果 驱 动 程序 在 immediate 队 列 排列 了 一 些 东西 并 
希望 immediate bottom half 处 理 程 序 会 运行 并 处 理 它 的 时 候 就 设置 第 8 位 。 每 一 次 系统 调用 的 
最 后 ， 把 控制 权 返 回调 用 程序 之 前 都 检查 bh_active 的 位 撼 码 。 如 果 有 任意 位 被 设置 ， 相 应 的 激 
活 的 bottom half 处 理 例 程 就 被 调用 。 首 先 检 查 位 0， 然 后 1 直到 位 31。 调 用 每 一 个 bottom half 
处 理 例 程 调 用 的 时 候 就 清除 bh_active 中 相应 的 位 。Bh_active 是 易 变 的 : 它 只 在 调用 调度 程序 之 
间 有 意义 ， 通 过 设置 它 ， 当 没有 需要 作 的 工作 的 时 候 可 以 不 调用 相应 的 bottom half 处 理 程序 。 





























































































































Kernel/softirq.c do bottom half() 


11.2 Task Queues (任务 队列 》 




















任务 队列 是 核心 用 来 把 工作 推迟 到 以 后 的 方法 。Linux 由 一 个 通用 的 机 制 ， 把 工作 排列 在 队列 中 
并 在 稍 后 的 时 间 进 行 处 理 。 任 务 队 列 通 常 和 bottom half 处 理 程序 一 起 使 用 : 当 timer bottom half 
处 理 程序 运行 的 时 候 处 理 计时 器 任务 队列 。 任 务 队 列 是 一 个 简单 的 数据 结构 ， 参 见 图 11.2， 包 
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括 一 个 tq_struct 数 据 结构 的 单 链 表 ， 每 一 个 包括 例 程 的 指针 和 指向 一 些 数据 的 指针 。 


h 当 这 个 任务 队列 的 单元 被 处 理 的 时 候 调 用 这 个 例 程 ， 数 据 的 指针 会 
传递 给 
































核心 的 任何 东西 ， 例 如 设备 驱动 程序 ， 都 可 以 创建 和 使 用 任务 队列 ， 但 是 有 三 个 任务 队列 是 由 
核心 创建 和 管理 的 : 























timer 这 个 队列 用 于 排列 在 下 一 个 系统 时 钟 之 后 尽 可 能 运行 的 工作 。 每 一 个 时 钟 周 期 ， 都 检查 这 
个 队列 ， 看 是 否 有 条 目 ， 如 果 有 ， 时 钟 队列 的 bottom half 处 理 程序 被 标记 为 激活 。 当 调度 在 一 
次 运行 的 时 候 ， 就 处 理 这 个 时 钟 队 列 bottom half 处 理 程序 以 及 其 它 bottom half 处 理 程序 。 不 要 
把 这 个 队列 和 系统 计时 器 混淆 ， 那 是 一 个 更 复杂 的 机 制 


immediate 这 个 队列 也 是 在 调度 程序 处 理 激活 的 bottom half 处 理 程 序 的 时 候 被 处 理 。 这 个 
immediate bottom half 处 理 程 序 没有 timer 队列 bottom half 处 理 程序 优先 级 高 ， 所 以 这 些 任 务 
会 迟疑 写 运行 。 

Scheduler 这 个 任务 队列 由 调度 程序 直接 处 理 。 它 用 于 支持 系统 中 的 其 它 任 务 队 列 ， 这 种 情况 
下 ， 要 运行 的 任务 会 是 一 个 处 理 任务 队列 《例如 设备 驱动 程序 ) 的 例 程 。 



























































当 处 理 任务 队列 的 时 候 ， 指 向 队列 中 的 一 个 单元 的 指针 从 队列 中 删除 ， 用 一 个 null 指 针 代 蔡 。 实 
际 上 ， 这 种 删除 是 一 个 不 角 EDITOR TRIE. 然后 为 队列 中 的 每 一 个 单元 顺序 调用 它 的 处 理 
例 程 。 队列 中 的 单元 通常 是 静态 分 配 的 数据 。 但 是 没有 一 个 固有 的 机 制 来 废弃 分 配 的 内 存 。 任 
cU SENS Re TURN MT ee 保证 正确 地 清除 任何 分 配 的 核心 内 存 是 
EE 的 工 






































11.3 Timers 


一 个 操作 系统 都 需要 有 能 力 把 一 个 活动 调度 到 将 来 的 一 个 时 间 ， 这 需要 一 种 机 制 让 活动 可 以 调 
度 到 相对 准确 的 时 间 去 运行 。 任 何 希望 支持 一 个 操作 系统 的 微 处 理 器 都 需要 一 个 可 编程 间隔 适 
中 ， 定 期 中 断 处 理 器 。 这 个 定期 的 中 断 就 是 系统 时 钟 周期 (system clock tick) » "32s — 
拍 器 ， 指 挥 系 统 的 活动 。Linux 用 非常 简单 的 方式 看 待 时 间 : 它 从 系统 启动 的 时 候 开 始 用 时 钟 周 
期 测量 时 间 。 任 何 系统 时 间 都 基于 这 种 量度 ， 叫 做 jiffers， 和 全 局 变量 同名 。 
















































































Linux 有 两 种 类 型 的 系统 计时 器 ， 每 一 种 都 排列 例 程 ， 在 特定 的 系统 时 间 调 用 ， 但 是 实现 的 方式 
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上 它们 有 轻微 的 不 同 。 图 11.3 显 示 了 两 种 机 制 。 第 一 种 ， 旧 的 计时 器 机 制 ， 有 一 个 静态 的 数 
组 ， 有 32 个 指 同 timer_struct 数 据 结构 的 指针 和 一 个 激活 的 时 钟 的 掩 码 ，timer_active。 计 时 器 
放 在 这 个 计时 器 表 中 的 什么 位 置 是 静态 定义 的 《和 bottom half 处 理 程序 中 的 bh_base 不 同 ) 。 
条 目 在 系统 初始 化 的 时 候 被 加 到 这 个 表 中 。 第 二 种 机 制 ， 使 用 一 个 timer_list 数 据 结构 的 链接 表 
中 ， 按 照 过 期 时 间 的 数据 排列 。 




















参见 include/linux/timer.h 














每 一 种 方法 都 使 用 jiffies 中 的 时 间作 为 过 期 时 间 ， 这 样 一 个 希望 运行 5 秒 的 计时 器 会 有 一 个 可 以 
换算 为 5 秒 的 jiffies 单 元 加 上 当前 系统 时 间 得 到 计时 器 过 期 时 的 系统 时 间 〈 以 jiffies 为 单位 ) 。 每 
一 次 系统 时 钟 周期 ，timer bottom half 处 理 程序 被 标记 为 激活 ， 所 以 当下 一 次 调度 程序 运行 的 时 
候 ， 会 处 理 计时 器 队列 。Timer bottom half 处 理 程序 会 处 理 全 部 两 种 类 型 的 系统 计时 器 。 对 于 
旧 的 系统 计时 器 ， 检 查 timer_active 位 掩 码 中 置 了 位 的 。 如 果 一 个 激活 的 计时 器 过 期 (过 期 时 间 
小 于 当前 的 系统 jiffies) ， 就 调用 它 的 计时 器 例 程 ， 并 清除 它 的 激活 位 。 对 于 新 的 系统 计时 器 ， 
检查 timer_list 数 据 结 构 的 链接 表 中 的 条 目 。 每 一 个 过 期 的 计时 器 从 这 个 列表 中 删除 并 调用 它 的 
例 程 。 新 的 计时 器 机 制 的 优点 在 于 它 可 以 癌 计时 器 例 程 传递 参数 。 
























































参见 kernel/sched.c timer_bh() run old timers() run timer list() 


11. 4 Wait Queues (等 待 队 列 ) 








许多 时 候 一 个 进程 必须 等 待 一 个 系统 资源 。 例 如 ， 一 个 进程 可 能 需要 描述 文件 系统 中 一 个 日 录 
的 VFS inode， 但 是 这 个 inode 可 能 不 在 buffer cache 钟 。 这 时 ， 系 统 必 须 等 待 这 个 inode 从 包含 这 
个 文件 系统 的 物理 介质 中 取出 来 ， 然 后 才能 继续 。 

















Linux 核 心 使 用 一 个 简单 的 数据 结构 ， 一 个 等 待 队 列 ( 见 图 11.4) ， 包 含 一 个 指向 进程 的 
task_struct 的 指针 和 一 个 指 癌 等 待 队 列 中 下 一 个 元 素 的 指针 。 


参见 include/linux/wait.h 
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timer. table timer. struct 


ü expires 
*fn() 


timer struct 
expires 
*tnt) 


limer_active 


timer_head timer_list timer_list 
3 
: 
ata 


*function() *function() 





Figure 11.3: System Timers 


WALL UC LO 


* ask 
tnext 


Figure Ll4: Wait Queue 


KJER K JY EAU Be, ETA BERT aA P rear S I PAo AT P 
的 进程 在 等 待 队列 等 待 的 过 程 中 可 以 被 事件 中 断 ， 例 如 过 期 的 计时 器 或 者 发 送 来 的 信号 等 事 
件 。 等 待 进 程 的 状态 会 反映 出 来 ， 可 以 是 INTERRUPTIBLE 或 者 UNINTERRUPTIBLE。 因 为 这 个 进 
程 现 在 不 能 继续 运行 ， 就 开始 运行 调度 程序 ， 当 它 选 择 了 一 个 新 的 进程 运行 的 时 候 ， 这 个 等 待 
的 进程 就 会 被 挂 起 。 


当 处 理 等 待 队 列 的 时 候 ， 等 待 队 列 中 的 每 一 个 进程 的 状态 都 被 设置 位 RUNNING。 如 果 进 程 从 运 
行 队列 中 删除 了 ， 它 就 被 放 回 到 运行 队列 。 下 一 次 运行 调度 程序 的 时 候 ， 在 等 待 队列 的 进程 现 
在 就 成 为 运行 的 候选 ， 因 为 它们 不 再 等 待 了 。 当 一 个 等 待 队列 的 进程 被 调度 的 时 候 ， 首 先 要 作 
的 是 把 自己 从 等 待 队 列 中 删除 。 等 待 队列 可 以 用 于 同步 访问 系统 资源 ，Linux 用 这 种 方式 实现 它 
的 信号 灯 。 
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11.5 Buzz Locks 








通常 叫做 spin locks， 这 是 保护 一 个 数据 结构 或 代码 段 的 一 个 原始 方法 。 它 们 一 次 只 允许 一 个 进 























程 处 于 一 个 重要 的 代码 区 域 。Linux 使 用 它们 来 限制 对 于 数据 结构 中 的 域 的 访问 ， 它 利用 一 个 整 


数字 段 作 为 锁 。 每 一 个 希望 进入 这 个 区 域 的 进程 试图 把 锁 的 起 始 值 从 0 变 为 1。 如 果 当 前 致使 
1， 进 程 重新 尝试 ， 在 一 个 紧凑 的 代码 循环 中 旋转 (spin〉。 对 于 保存 这 个 锁 的 内 存 位 置 的 访问 
必须 具有 原子 性 ， 读 取 它 的 值 、 检 查 它 是 0 然后 把 它 改 为 L， 这 个 动作 不 能 被 其 他 任何 进程 打 




















断 。 多 数 CPU 结 构 通 过 特殊 的 指令 为 此 提供 支持 ， 但 是 你 也 可 以 使 


buzz lock. 














HAS Be 存 的 主 内 存 实 现 这 种 


当 属 主 进程 离开 这 个 重要 的 代码 区 域 的 时 候 ， 它 减 小 这 个 buzz lock， 让 它 的 值 返回 到 0。 任 何在 
这 个 锁 上 循环 的 进程 现在 会 读 到 0， 第 一 个 做 到 的 进程 会 把 它 增加 到 1 并 进入 这 个 重要 区 域 。 








11.6 Semaphores (信号 灯 ) 


























信号 灯 用 于 保护 重要 的 代码 区 域 或 数据 结构 。 记 住 ， 对 于 重要 数据 结构 例如 描述 一 个 目录 的 











VFS inode 的 每 一 次 访问 都 是 通过 核心 为 进程 执行 的 。 如 果 人 允许 一 个 进程 改变 男 一 个 进程 使 用 的 
重要 的 数据 结构 是 非常 危险 的 。 实 现 的 方法 之 一 是 在 要 访问 的 重要 的 代码 片上 使 用 一 个 buzz 








lock， 虽 然 这 是 最 简单 的 方法 但 是 不 会 有 太 好 的 系统 性 能 。Linux 使 



































上 信号灯 实 现 一 次 只 允许 一 


个 进程 访问 重要 的 代码 和 数据 区 域 : 所 有 其 它 希 望 访 问 这 个 资源 的 进程 会 被 迫 等 待 直 到 信号灯 


空 闪 。 等 每 的 进程 被 和 大 起 ， 系 统 中 的 其 它 进程 和 平时 一 样 正常 运行 。 





| 


一 个 Linux 信 号 灯 数 据 结 构 包 括 以 下 信息 : 








参见 include/asm/semaphore.h 




















count 这 个 字段 记录 了 希望 使 用 这 个 资源 的 进程 数 。 正 的 数值 表示 这 个 资源 可 用 。 负 值 或 0 表示 














有 进程 在 等 待 。 起 始 值 1 表 示 同 一 时 间 有 一 个 且 只 有 一 个 进程 可 以 使 
用 这 个 资源 的 时 候 它 们 减 小 这 个 count， 当 结束 对 这 个 资源 的 使 用 的 时 候 ， 它 们 增加 这 个 count 






































用 这 个 资源 。 当 进程 希望 使 


waking 等 竺 这 个 资源 的 进程 数 ， 这 也 是 等 待 当 资源 空闲 的 时 候 被 唤醒 的 进程 数 。 


Wait queue 当 进 程 等 待 这 个 资源 的 时 候 它们 被 放 到 这 个 等 待 队列 
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Lock 当 访 问 waking 域 所 用 的 buzz lock 





假设 信号 灯 的 起 始 值 是 :， 第 一 个 到 来 的 进程 会 看 到 count 是 正 的 ， 把 它 减 省 I， 成 为 0。 这 个 进 
程 现 在 “拥有 ”这 个 受到 信号 灯 保 护 的 重要 的 代码 片 或 资源 。 当 进程 离开 这 个 重要 区 域 的 时 候 
它 增 加 信和 与 灯 的 count。 最 理想 的 情况 是 没有 其 它 进程 苑 争 这 个 重要 区 域 的 所 有 权 。Linux 实 现 的 
信号 灯 在 这 种 最 第 见 的 情况 下 工作 的 非 第 高 效 。 
































如 果 另 一 个 进程 希望 进入 这 个 重要 区 域 ， 而 它 已 经 被 一 个 进程 拥有 ， 它 也 会 减少 这 个 count。 
为 这 个 count 现 在 是 -1， 这 个 进程 不 能 进入 这 个 重要 区 域 。 它 必须 等 待 直到 拥有 的 进程 退出 来 。 
Linux 让 等 待 的 进程 睡眠 直到 拥有 权 的 进程 退出 这 个 重要 区 域 把 它 唤醒 。 等 待 进程 把 它 自 己 加 到 
信号 灯 的 等 待 队 列 中， 并 循环 检查 waking 字 段 的 值 ， 调 用 调度 程序 直到 waking 非 0。 










































































这 个 重要 区 域 的 属 主 增加 信号灯 的 count， 如 果 它 小 于 或 等 于 0， 那 么 还 有 进程 在 睡眠 ， 等 待 这 
个 资源 。 理 想 情 况 下 ， 信 号 灯 的 count 会 返回 到 它 的 起 始 值 1， 这 样 就 不 需要 做 什么 工作 。 所 有 
权 的 进程 增加 waking 计 数 器 并 唤醒 在 信号 灯 等 待 队列 中 睡眠 的 进程 。 当 等 待 的 进程 被 唤醒 之 
后 ，waking 计 数 需 现在 是 1， 它 知道 它 现在 可 以 进入 这 个 重要 区 域 。 它 减少 waking 计 数 需 ， 把 它 
返回 0 并 继续 。 所 有 对 于 这 个 信号 灯 的 waking 字 段 的 访问 都 用 信号 灯 的 lock 这 个 buzz lock 来 保 
护 。 































































































Chapter 12 


Modules 











本 章 描 述 Linux 核 心 如 何 只 在 需要 的 时 候 才 动态 加 载 函 数 ， 例 如 文件 系统 。 











Linux 是 一 个 完整 的 核心 ， 就 是 说 ， 它 是 一 个 单一 的 巨大 的 程序 ， 核 心 的 功能 组 件 可 以 访问 它 的 
所 有 的 内 部 数据 结构 以 及 例 程 。 另 一 种 方法 是 使 用 一 个 微 内 核 的 结构 ， 核 心 的 功能 片 被 分 成 独 
立 的 单元 ， 互 相 之 间 有 严格 的 通讯 机 制 。 这 样 通过 配置 进程 向 核心 增加 新 的 组 件 不 花 多 少时 
间 。 比 如 你 希望 增加 一 个 NCR 810 SCSI 卡 的 SCSI 驱 动 程序 ， 你 不 需要 把 它 连接 到 核心 。 否 则 你 
不 得 不 配置 并 建立 一 个 新 的 核心 才能 使 用 这 个 NCR 810。 作 为 一 种 变通 ，Linux 允 许 在 你 需要 的 
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时 候 动 态 地 加 载 和 仓 载 操作 系统 的 组 件 。Linux 的 模块 是 可 以 在 系统 启动 之 后 任何 时 候 动态 连接 
到 核心 的 代码 块 。 它 们 可 以 在 不 被 需要 的 时 候 从 核心 删除 并 凶 载 。 大 多 数 Linux 核 心 模 块 是 设备 
驱动 程序 ， 伪 设备 驱动 程序 比如 网 络 张 动 程序 或 文件 系统 。 


你 可 以 使 用 insmod 和 rmmod 命 令 明 确 地 加 载 和 御 载 Linux 核 心 模 块 ， 或 者 在 需要 这 些 模块 的 时 候 
由 核心 自己 要 求 核心 守护 进程 (kerned) 加 载 和 介 载 这 些 模 块 。 在 需要 的 时 候 动 态 地 加 载 代 码 
相当 有 吸引 力 ， 因 为 它 让 核心 可 以 保持 最 小 而 且 核心 非常 灵活 。 我 当前 的 Intel 核 心 大 量 使 用 模 
块 ， 它 只 有 406K 大 小 。 我 通常 上 只 适用 VFAT 文 件 系统 ， 所 以 我 建立 我 的 Linux 核 心 ， 当 我 安装 一 
个 VFAT 分 区 的 时 候 自 动 加 载 VFAT 文 件 系统 。 当 我 即 载 VFAT 文 件 系统 的 时 候 ， 系 统 探 测 到 我 不 再 
需要 VFAT 文 件 系 统 模块 ， 把 它 从 系统 中 有 删除。 模块 也 可 以 用 来 尝试 新 的 核心 代码 而 不 需要 每 次 
都 创建 和 重启 动 核心 。 但 是 ， 没 有 这 么 好 的 事情 ， 使 用 核心 模块 通常 伴随 轻微 的 性 能 和 内 存 开 
支 。 一 个 可 加 载 模块 必须 提供 更 多 的 代码 ， 这 种 代码 和 额外 的 数据 结构 会 占用 更 多 一 点 的 内 
存 。 男 外 因为 间接 访问 核心 资源 也 让 模块 的 效率 轻微 降低 。 

















































































































一 旦 Linux 核 心 加 载 ， 它 就 和 普通 核心 代码 一 样 成 为 核心 的 一 部 分 。 它 和 任何 核心 代码 拥有 相同 
的 权利 和 义务 : 换 名 话说 ，Linux 核 心 模块 和 所 有 的 核心 代码 或 设备 张 动 程序 一 样 可 能 让 核心 崩 


n. 
19i o 


既然 模块 在 需要 的 时 候 可 以 使 用 核心 资源 ， 它 们 必须 能 够 找到 这 些 资源 。 比 如 一 个 模块 需要 调 
用 kmalloc()， 核 心 内 存 分 配 例 程 。 当 建立 的 时 候 (build) ， 模 块 不 知道 内 存 中 kmalloc() 在 哪 
， 所 以 当 这 个 模块 加 载 的 时 候 ， 在 模块 能 够 工作 之 前 ， 核 心 必须 整理 模块 对 于 kmmalloc() 的 
所 有 的 引用 。 核 心 在 核心 符号 表 中 保存 了 所 有 核心 资源 的 列表 ， 所 以 当 模 块 加 载 的 时 候 它 可 以 
解析 模块 中 对 于 这 些 资源 的 引用 。Linux 人 允许 模块 堆栈 〈 堆 砌 ) ， 就 是 一 个 模块 需要 另 一 个 模块 
的 服务 。 例 如 VFAT 文 件 系统 模块 需要 FAT 文件 系统 模块 的 服务 ， 因 为 VFAT 文 件 系统 或 多 或 少 是 
FAT 文 件 系 统 上 的 扩展 。 一 个 模块 需要 另 一 个 模块 的 服务 或 资源 的 情况 和 一 个 模块 需要 核心 自己 
的 服务 和 资源 的 情况 非常 相似 ， 只 不 过 这 时 请 求 的 服务 在 另 一 个 ， 此 前 已 经 加 载 的 模块 钟 。 当 
每 一 个 模块 加 载 的 时 候 ， 核 心 修改 它 的 符号 表 ， 把 这 个 新 加 载 的 模块 的 所 有 输出 的 资源 或 符号 
加 到 核心 符号 表 中 。 这 意味 着 ， 当 下 一 个 模块 加 载 的 时 候 ， 它 可 以 访问 己 经 加 载 的 模块 的 服 


务 。 





































































































当时 图 凶 载 一 个 模块 的 时 候 ， 核 心 需要 知道 这 个 模块 不 在 用 ， 它 还 需要 一 些 方法 来 通知 它 准 备 
缀 载 的 模块 。 用 这 种 方法 模块 可 以 在 它 从 核心 删除 之 前 释放 它 占用 的 任何 的 系统 资源 ， 例 如 核 
心 内 存 或 中 断 。 当 模块 外 载 的 时 候 ， 核 心 把 这 个 模块 输出 到 核心 符号 表 中 所 有 的 符号 都 删除 。 


除了 写 的 不 好 的 可 加 载 模块 可 能 破坏 操作 系统 之 外 ， 还 有 男 一 个 危险 。 如 果 你 加 载 一 个 为 比 你 

当前 运行 的 核心 要 早 或 迟 的 核心 建立 的 模块 会 发 生 什么 ?如 果 这 个 模块 执行 一 个 核心 例 程 而 提 

c1 NS USTED ESSA caes OCURRE 
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12.1 Loading a Module〈 加 载 一 个 模块 ) 


149 of 212 04/21/2011 11:34 AM 








Linux Kernel 核 心中 文 手册 file:///media/7C88B4DC88B495DC/redbatzero/linux 内 核 图 ... 

















用 两 种 方法 可 以 加 载 一 个 核心 模块 。 第 一 种 使 用 insmod 命 令 手工 把 它 插入 到 核心 。 第 二 种 ， 更 
RIOT SEHR E AEE IR AUR 这 叫做 按 需 加 载 (demand loading) 。 当 核心 发 现 
需要 一 个 模块 的 时 候 ， 例 如 当 用 户 安 装 一 个 不 在 核心 的 文件 系统 的 时 候 ， 核 心 会 请 求 核 心 守 护 
进程 (kerneld) 试图 加 载 合 适 的 模块 。 



































Kerneld 和 insmod，lsmod 以 及 rmmod 都 在 modules 程 序 包 中 。 




















核心 守护 进程 通常 是 拥有 超级 用 户 特 权 的 一 个 普通 的 用 户 进程 。 当 它 启动 的 时 候 (通常 是 在 系 
ee 
请 求 它 执行 大 量 的 任务 。Kerneld 的 主要 功能 是 加 载 和 利 载 核心 模块 ， 但 是 它 也 可 以 执行 其 它 任 
务 ， 比 如 需要 的 时 候 在 串 行 线 上 启动 PPP 连 接 ， 不 需要 的 时 候 把 它 关 闭 。Kerneld 本 身 并 不 执行 
这 些 任务 ， 它 运行 必要 的 程序 比如 insmod 来 完成 工作 。Kerneld 只 是 核心 的 一 个 代理 ， 调 度 它 的 
工作 。 


参见 include/linux/kerneld.h 


















































insmod 命令 必须 找到 它 要 加 载 的 被 请 求 的 核心 模块 。 按 徐 加 载 的 核心 模块 通常 放 在 /lib 
/mmodules/kernel-version 目 录 里 边 。 核 心 模 块 和 系统 中 的 其 它 程序 一 样 是 连接 程序 的 目标 文 
件 ， 但 是 它们 被 连接 成 可 以 重 定位 的 映像 。 就 是 没有 连接 到 特定 地 址 去 运行 的 映像 。 它 们 可 以 
是 a.out 或 elf 格 式 的 目标 文件 。Insmod 指 向 一 个 特权 的 系统 调用 ， 找 出 系统 的 输出 符号 。 它 们 以 
符号 名 称 和 值 〈 例 如 它 的 地 址 〉 的 形式 成 对 存放 。 核 心 的 输出 符号 表 放 在 核心 维护 的 模块 列表 
中 的 第 一 个 module 数 据 结 吉 构 ， 用 module_list 指 针 指 向 。 只 有 在 核心 编译 和 连接 的 时 候 特殊 指定 
的 符号 才 加 到 这 个 表 中 ， 而 并 非 核心 的 每 一 个 符号 都 输出 它 的 模块 。 例 如 符号 “request_irq” 
是 一 个 系统 例 程 ， 当 一 个 驱动 程序 希望 控制 一 个 特定 的 系统 中 断 的 时 候 必 须 调用 它 。 在 我 当前 
的 核心 上 ， 它 的 值 是 0x0010cd30。 你 可 以 检查 文件 /proc/ksyms 或 使 用 ksyms 工 具 简 单 地 查看 
输出 的 核心 符号 和 它们 的 值 。Ksyms 工 具 可 以 向 你 显示 所 有 的 输出 的 核心 符号 或 者 只 显示 哪些 
加 载 模块 输出 的 符号 。Insmod 把 模块 读 取 到 它 的 虚拟 内 存 ， 使 用 核心 的 输出 符号 来 整理 这 个 模 
块 对 于 核心 例 程 和 资源 的 未 解析 的 引用 。 这 个 整理 过 程 是 用 向 内 存 中 的 模块 映像 打 补 丁 的 方式 
进行 ，insmod 物 理 上 把 符号 的 地 址 写 到 模块 的 合适 的 位 


























































































































参见 kernel/module.c kernel_syms() include/linux/module.h 
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module list module module 
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*cleanup() 


symbol_table 


n symbols 


n refs 


symbol table 
| n symbols | 


symbols symbols 


references 


Figure 12.1: The List of Kernel Modules 


references 

















当 insmod 整 理 完了 模块 对 于 输出 的 核心 符号 的 引用 之 后 ， 他 向 核心 请 求 足够 的 空间 放置 新 的 核 
心 ， 又 是 通过 特权 的 系统 调用 。 核 心 分 配 一 个 新 的 module 数 据 结构 和 足够 的 核心 内 存 来 存放 这 
个 新 的 模块 ， 并 把 它 放置 到 核心 的 模块 列表 的 最 后 。 这 个 新 的 模块 被 标记 为 UNINITIALIZED 。 图 
12.1 显 示 了 核心 模块 列表 的 后 面 两 个 模块 : FAT 和 VFAT 被 加 载 到 了 内 存 。 图 中 没有 显示 的 有 列 
表 的 第 一 个 模块 ， 这 是 一 个 伪 模 块 ， 用 于 放置 核心 的 输出 符号 表 。 你 可 以 使 用 命令 lsmod 列 出 所 
有 加 载 的 核心 模块 和 它们 之 间 的 依赖 关系 。Lsmod 只 是 简单 地 把 从 核心 nodule 数 据 结构 列表 中 
提取 的 /proc/modules 重 新 安排 了 格式 。 核 心 为 模块 分 配 的 内 存 映射 到 insmod 进 程 的 地 址 空间 ， 
所 以 它 可 以 访问 它 。Insmod 把 模块 拷贝 到 分 配 的 空间 ， 并 把 它 重 定位 ， 这 样 它 就 可 以 从 被 分 配 
的 核心 地 址 运行 。 必 须 进 行 重 定位 ， 因 为 一 个 模块 不 能 期 竺 在 两 次 被 加 载 到 相同 的 地 址 或 者 在 
两 个 不 同 的 Linux 系 统 上 被 加 载 到 相同 的 地 址 。 这 一 次 ， 重 定位 又 关系 到 要 用 适当 的 地 址 为 模块 
的 映像 打 补 丁 。 


























参见 kernel/module.c create module() 


新 的 模块 也 癌 核 心 输出 符 写 ，Insmod 建 立 一 个 输出 映像 表 。 每 一 个 核心 模块 必须 包含 模块 初始 
化 和 模块 清除 的 历程 ， 这 些 符号 必须 是 专用 的 而 不 是 输出 的 ， 但 是 insmod 必 须知 道 它 们 的 地 
址 ， 能 把 它们 传递 给 核心 。 所 有 这 些 做 好 之 后 ，Insmod 现 在 准备 初始 化 这 个 模块 ， 它 执行 一 个 
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特权 的 系统 调用 ， 把 这 个 模块 的 初始 化 和 清除 例 程 的 地 址 传递 给 核心 。 


参见 kernel/module.c sys init module() 





当 一 个 新 的 模块 加 到 核心 的 时 候 ， 它 必须 更 新 核心 的 符号 表 并 改变 被 新 的 模块 使 用 的 模块 。 其 
它 模块 依赖 的 模块 必须 在 它们 的 符号 表 之 后 维护 一 个 引用 列表 ， 用 它们 的 module 数 据 结构 指 
向 。 图 12.1 显 示 了 VFAT 文 件 系统 模块 依赖 于 FAT 文 件 系统 模块 。 所 以 FAT 模 块 包含 一 个 到 VFAT 模 
块 的 引用 : 这 个 引用 在 VFAT 模 块 加 载 的 时 候 增 加 。 核 心 调用 模块 的 初始 化 例 程 ， 如 果 成 功 ， 它 
开始 安装 这 个 模块 。 模 块 的 清除 例 程 的 地 址 保存 在 它 的 module 数 据 结构 中 ， 当 这 个 模块 卸载 的 
时 候 核 心 会 去 调用 。 最 后 ， 模 块 的 状态 被 设置 为 RUNNING。 


































































































12.2 Unloading a Module 


























模块 可 以 使 用 rmmod 命 令 删 除 ， 但 是 kerneld 可 以 把 所 有 不 用 的 按 需 加 载 的 模块 从 系统 中 删除 。 
每 一 次 它 的 空闲 计时 器 到 期 的 时 候 ，kerneld 执 行 系统 调用 ， 请 求 从 系统 删除 所 有 的 不 需要 的 按 
需 加 载 的 模块 。 这 个 计时 器 的 值 由 你 在 启动 kerneld 的 时 候 设 定 : 我 的 kerneld 每 180 秒 检查 一 
次 。 如 果 你 安装 了 一 个 iso9660 CD ROM 而 你 的 iso9660 文 件 系统 是 一 个 可 加 载 模块 ， 那 么 ， 在 
CD ROM 御 载 不 久 ，iso9660 模 块 会 从 核心 中 删除 。 
































如 果 核 心中 的 其 它 组 件 依 赖 于 一 个 模块 ， 它 就 不 能 被 删除 。 例 如 如 果 你 安装 了 一 个 或 更 多 的 
VFAT 文 件 系统 ， 你 就 不 能 卸载 VFAT 模 块 。 如 果 你 检查 ls 输出 ， 你 会 看 到 每 一 个 模块 关联 一 个 计 
数 器 。 例 如 : 





Module: #pages: Used by: 
msdos 5 1 
vfat 4 1 (autoclean) 


fat 6 [vfat msdos] 2 (autoclean) 


这 个 计数 器 (count?) 是 依赖 于 这 个 模块 的 核心 实体 的 数目 。 在 上 例 中 ，vfat 和 msdos 都 依赖 于 
fat 模 块 ， 所 以 fat 模 块 的 计数 器 是 2。Vfat 和 msdos 模 块 的 依赖 数 都 是 1， 因 为 它们 都 有 一 个 安装 
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的 文件 系统 。 如 果 我 加 载 另 外 一 个 VFAT 文 件 系 统 ， 那 么 vfat 模 块 的 计数 器 会 变 成 2。 一 个 模块 的 
计数 器 放 在 它 的 映像 的 第 一 个 长 字 中 〈longword) 。 

















因为 它 也 放置 AUTOCLEAN 和 VISITED 标 志 ， 所 以 这 个 字段 有 一 些 轻 微 过 载 。 这 些 标 志 都 用 于 按 
需 加 载 模块 。 这 些 模块 被 标记 为 AUTOCLEAN， 这 样 系统 可 以 识别 出 哪些 它 可 以 自动 卸载 。 
VISITED 标 志 表 示 这 个 模块 被 一 个 或 多 个 系统 组 件 使 用 : 只 要 另 一 个 组 件 使 用 它 就 设置 这 个 标 
志 。 每 一 次 kerneld 请 求 系统 删除 不 用 的 按 需 加 载 的 模块 的 时 候 ， 它 都 查看 系统 中 所 有 的 模块 ， 
找到 合适 的 候选 。 它 只 查看 标记 为 AUTOCLEAN 而 且 状 态 是 RUNNING 的 模块 。 如 果 这 个 候选 的 
VISITED 标 记 被 清除 ， 那 么 它 就 删除 这 个 模块 ， 否 则 它 就 清除 这 个 VISITED 标 记 ， 继 续 查 找 系 统 
中 的 下 一 个 模块 。 

































































假设 一 个 模块 可 以 被 彼 载 ， 就 调用 它 的 清除 例 程 (cleanup) ， 让 它 释放 它 所 分 配 的 核心 资源 。 
这 个 module 数 据 结构 被 标记 为 DELTED， 从 核心 模块 列表 中 删除 。 任 何其 它 的 它 所 依赖 的 模块 的 
引用 表 被 修改 ， 这 样 它 们 不 再 把 它 当 作 一 个 依赖 者 。 这 个 模块 需要 的 所 有 的 核心 内 存 被 释放 。 























参见 kernel/module.c delete module() 


Chapter 13 





The Linux Kernel Sources 〈Linux 核 心 源 程序 ) 





本 章 描 述 了 你 应 该 在 Linux 核 心 源 程序 的 什么 地 方 开始 查看 特定 的 核心 功能 。 

















本 书 不 依赖 “C ”语言 的 知识 或 要 求 你 有 Linux 核 心 源 程序 才能 理解 Linux 核 心 如 何 工 作 。 而 是 
说 ， 练 习 查 看 核心 源 程 序 能 够 对 于 Linux 操 作 系统 有 一 个 深入 地 理解 。 本 章 给 出 核心 源 程序 的 概 
览 : 它们 如 何 组 织 ， 你 应 该 从 哪里 开始 查找 特定 的 代码 。 




















Where to Get The Linux Kernel Sources〈 从 哪里 得 到 Linux 核 心 源 程序 ) 
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B WEE ff) Linux) A (Craftworks, Debian, Slackware, RedHat 等 等 ) 中 间 都 有 核心 源 程 
序 。 通 常 L 安 装 在 你 的 Linux 系 统 上 的 Linux 核 心 都 是 用 这 些 源 程序 建立 的 。 实 际 上 这 些 源 程 序 显 
得 有 些 过 时 ， 所 以 你 可 能 希望 得 到 附录 C 提 到 的 web 站 点 得 到 最 新 的 源 程序 。 它 们 放 在 
ftp://ftp.cs.helsinki.fi 和 其 它 所 有 的 镜像 的 web 站 点 。Helsinki 的 web 站 点 最 新 ， 但 是 其 它 站 点 例 
如 MIT 和 Sunsite 也 不 会 太 落 后 。 









































如 果 你 无 法 访问 web， 还 有 许多 CDROMJ 家 用 非常 合理 的 费用 提供 世界 主要 web 站 点 的 块 找 。 
一 些 甚 至 提供 预订 服务 ， 按 季 或 月 进行 更 新 。 你 的 本 地 的 Linux 用 户 组 也 是 一 个 源 程 序 的 好 的 来 


























Linux 核 心 源 程序 有 一 个 非常 简单 的 编号 系统 。 任 何 偶数 的 核心 〈 例 如 2.0.30) 都 是 一 个 稳定 的 
发 行 的 核心 ， 而 任何 奇数 的 核心 《例如 2.1.42) 都 是 一 个 开发 中 的 核心 。 本 书 基 于 稳定 的 
2.0.30 源 代码 。 开 发 版 的 核心 具有 所 有 的 最 新 特点 和 所 有 最 新 的 设备 的 支持 ， 但 是 它们 可 能 不 
稳定 ， 可 能 不 是 你 所 要 的 ， 但 是 让 Linux 社 团 测试 最 新 核心 是 很 重要 的 。 这 样 可 以 让 整个 社团 都 
进行 测试 。 记 住 ， 即 使 你 测试 非 生产 用 核心 ， 最 好 也 要 备份 你 的 系统 。 









































对 于 核心 源 程序 的 改动 作为 patch 文 件 分 发 。 工 具 patch 可 以 对 于 一 系列 源 文件 应 用 一 系列 修 
改 。 例 如 ， 如 果 你 有 2.0.29 的 源 程序 树 ， 而 你 希望 转移 到 2.0.30， 你 可 以 取 到 2.0.30 的 patch 文 
件 ， 并 把 这 些 patch 编 辑 ) 应 用 到 源 程 序 树 上 : 

















$ cd /usr/src/linux 


$ patch -p1 « patch-2.0.30 

















这 样 可 以 不 用 拷贝 整个 源 程 序 树 ， 特 别 对 于 慢 速 的 串 行 连接 。 一 个 核心 补丁 (正式 和 非 正式 
的 ) 的 好 来 源 是 http: //www.linuxhq.com 











How The Kernel Sources Are Arranged〔( 核 心 源 程序 如 何 组 织 ) 





在 源 程序 树 的 最 上 层 你 会 看 到 一 些 目 录 : 
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arch arch 子 目录 包括 所 有 和 体系 结构 相关 的 核心 代码 。 它 还 有 更 深 的 子 目 录 ， 个 代表 一 种 
文 持 的 体系 结构 ， 例 如 i386 和 alpha。 


Include include 子 目录 包括 编译 核心 所 需要 的 大 部 分 include 文 件 。 它 也 有 更 深 的 子 目 录 ， 每 一 个 
支持 的 体系 结构 一 个 。Include/asm 是 这 个 体系 结构 所 需要 的 真实 的 include 目 录 的 软 链 接 ， 例 如 
include/asm-i386。 为 了 改变 体系 结构 ， 你 需要 编辑 核心 的 makefile， 重 新 运行 Linux 的 核心 配 
程序 


Init 这 个 目录 包含 核心 的 初始 化 代码 ， 这 时 研究 核心 如 何 工 作 的 一 个 非常 好 的 起 点 。 


Mm 这 个 目录 包括 所 有 的 内 存 管 理 代码 。 和 体系 结构 相关 的 内 存 管 理 代码 位 于 arch/*/mm/， 例 
如 arch/i386/mm/fault.c 







































































Drivers 系统 所 有 的 设备 驱动 程序 在 这 个 目录 。 它 们 被 划分 成 设备 驱动 程序 类 ， 例 如 block。 
Ipc 这 个 目录 包含 核心 的 进程 间 通 讯 的 代码 














Modules 这 只 是 一 个 用 来 存放 建立 好 的 模块 的 目录 

Fs 所 有 的 文件 系统 代码 。 被 划分 成 子 目 录 ， 每 一 个 支持 的 文件 系统 一 个 ， 例 如 vfat 和 ext2 
Kernel 主要 的 核心 代码 。 同 样 ， 和 体系 相关 的 核心 代码 放 在 arch/*/kernel 

Net 核心 的 网 络 代 码 

Lib 这 个 目录 放置 核心 的 库 代 码 。 和 体系 结构 相关 的 库 代 码 在 arch/*/lib/ 

Scripts 这 个 目录 包含 脚本 《例如 awk 和 tk 脚本 ) ， 用 于 配置 核心 



































Where to Start Looking 〈 从 哪里 开始 看 ) 








看 像 Linux 核 心 这 么 巨大 复杂 的 程序 相当 困难 。 它 就 像 一 个 巨大 的 线 球 ， 显 示 不 出 终点 。 看 核心 
的 一 部 分 代码 通常 会 引 到 查看 其 它 儿 个 相关 的 文件 ， 不 就 你 就 会 瑟 记 你 看 了 什么 。 下 一 给 你 
个 提示 ， 对 于 一 个 给 定 的 主题 ， 最 好 看 源 程 序 树 的 那个 地 方 。 























System Startup and Initialization 〈 系 统 启动 和 初始 化 ) 
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在 一 个 Intel 系 统 上 ， 当 loadlin.exe 或 LILO 把 核心 加 载 到 内 存 并 把 控制 权 交 给 它 的 时 候 ， 核 心 开 始 
启动 。 这 一 部 分 看 arch/i386/kernel/head.S。head.S 执 行 一 些 和 体系 结构 相关 的 设置 工作 并 跳 
到 init/main.c 中 的 main() 例 程 。 








Memory Management (内 存 管 理 ) 


代码 大 多 在 mm 但 是 和 体系 结构 相关 的 代码 在 arch/*/mm。Page fault 处 理 代码 在 mm/memory.c 
中 ， 内 存 映 射 和 页 缓存 代码 在 mm/filemap.c 中 。Buffer cache 在 mmybuffer.c 中 实现 ， 交 换 组 
存在 mm/swap_state.c 和 mm/swapfile.c 中 。 





Kernel 














大 部 分 相对 通用 的 代码 在 kernel， 和 体系 结构 相关 的 代码 在 arch/*/kernel。 调 度 程序 在 kernel 
/sched.c, fork 4t 13 Æ kernel/fork.c . bottom half 处 理 代码 Æ include/linux/interrupt.h. 
task_struct 数 据 结构 可 以 在 include/linux/sched.h 中 找到 





PCI 

















PCI 伪 驱动 程序 在 drivers/pci/pci.c， 系 统 范围 的 定义 在 include/ylinux/pci.h。 每 一 种 体系 结构 都 有 
一 些 特殊 的 PCI BIOS 代 码 ，Alpha AXP 的 位 于 arch/alpha/kernel/bios32.c 


Interprocess Communication 





全 部 在 ipc 目 录 。 所 有 系统 V IPC 对 象 都 包括 ipc_perm 数 据 结构 ， 可 以 在 includeylinux/yipc.h 中 找 
到 。 系 统 V 消 息 在 ipc/msg.c 中 实现 ， 共 享 内 存在 ipc/shm.c 中 ， 信 号 灯 在 ipc/sem.c。 管 道 在 ipc 
/pipe.c 中 实现 。 





























Interrupt Handling 
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核心 的 中 断 处 理 代码 几乎 都 是 和 微 处 理 器 (通常 也 和 平台 〉 相关 。lIntel 中 断 处 理 代码 在 
arch/i386/kernel/irq.c 它 的 定义 在 incude/asm-i386/irq.h。 





Device Drivers (设备 驱动 程序 ) 








Linux 核 心 源 代码 的 大 部 分 代码 行 在 它 的 设备 驱动 程序 中 。Linux 所 有 的 设备 驱动 程序 源 代码 都 在 


drivers 中 ， 但 是 它们 被 进一步 分 类 : 














/block 块 设备 驱动 程序 比如 ide Cide.c) 。 如 果 你 希望 查看 所 有 可 能 包含 文件 系统 的 设备 是 如 何 
初始 化 的 ， 你 可 以 看 drivers/block/genhd.c 中 的 device_setup()。 它 不 仅 初 始 化 硬盘 ， 也 初始 化 网 
络 ， 因 为 你 安装 nfs 文 件 系 统 的 时 候 需 要 网 络 。 块 设备 包括 基于 IDE 和 SCSI 设 备 。 




















/char 这 里 可 以 查看 基于 字符 的 设备 比如 tty， 串 行 口 等 。 





/cdrom Linux 所 有 的 CDROM 人 代码。 在 这 里 可 以 找到 特殊 的 CDROM 设 备 〈《 比 如 Soundblaster 
CDROM) 。 注 意 ide CD 驱动 程序 是 drivers/block 中 的 ide-cd.c， 而 SCSI CD 驱动 程序 在 
drivers/scsi/scsi.c 中 











/pci PCI 伪 驱动 程序 。 这 是 一 个 观察 PCI 子 系统 如 何 被 映射 和 初始 化 的 好 地 方 。Alpha AXP PCI 整 
理 代码 也 值得 在 arch/alpha/kernel/bios32.c 中 查看 











/scsi 在 这 里 不 但 可 以 找到 所 有 的 Linux 文 持 的 scsi 设 备 的 驱动 程序 ， 也 可 以 找到 所 有 的 SCSI 代 码 











/net 在 这 里 可 以 找到 网 络 设备 驱动 程序 比如 DEC Chip 21040 PCI 以 太 网 驱动 程序 在 tulip.c 中 








/sound 所 有 的 声卡 驱动 程序 的 位 置 








File Systems (文件 系统 ) 
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EXT2 文 件 系统 的 源 程 序 都 在 fs/ext2/ 子 目录 ， 数 据 结 构 的 定义 在 include/linux 
/ext2_fs.h,ext2_fs_i.h 和 ext2 fs sb.h'p 。 虚 拟 文 件 系统 的 数据 结构 在 include/linux/fs.h 中 描 
述 ， 代 码 是 fs/*。Buffer cache 和 update 核心 守护 进程 都 是 用 fs/buffer.c 实 现 的 




















Network (网 络 ) 





网 络 代 码 放 在 net 子 目录 ， 大 部 分 的 include 文 件 在 include/net 。BSD socket 代 码 在 
net/socket.c, Ipv4 INET socket 代码 在 net/ipv4/af_inet.c 中 。 通 用 协议 的 支持 代码 (包括 
sk_buff 处 理 例 程 》 在 net/core 中 ，TCP/IP 网 络 代码 在 net/ipv4。 网 络 设 备 驱 动 程序 在 drivers/net 




















Modules (模块 ) 





核心 模块 代码 部 分 在 核心 ， 部 分 在 modules 包 中 。 核 心 代码 全 部 在 kernel/modules.c， 数 据 结果 
和 核心 守护 进程 kerneld 的 消息 则 分 别 在 includeylinux/module.h 和 include/ylinux/kerneld.h 中 。 你 
可 能 也 希望 在 include/ylinux/elf.h 中 查看 一 个 ELF 目 标 文件 的 结构 











Appendix A〔 附 录 A) 


Linux Data Structures (Linux 数 据 结构 》 





本 附录 列 出 了 本 书 中 描述 的 Linux 使 用 的 主要 的 数据 结构 。 为 了 在 页 面 上 访 得 下 ， 它 们 经 过 了 少 
量 的 编辑 。 




















Block_dev_struct 





























block_dev_struct 数 据 结 构 用 于 登记 可 用 的 块 设备 ， 让 buffer cachet H. ENIE blk devi = 
表 中 。 
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Z& Winclude/linux/blkdev.h 


struct blk dev struct { 

void (*request_fn)(void); 

struct request * current_request; 
struct request plug; 

struct tq struct plug tq; 


}; 


buffer_head 





buffer_head 数 据 结 构 存 放 buffer cache 中 一 个 块 缓冲 区 的 信息 。 





参见 include/linux/fs.h 


/* bh state bits */ 

#define BH. Uptodate O /* 1 if the buffer contains valid data */ 
#define BH. Dirty 1 /* 1 if the buffer is dirty */ 

define BH. Lock 2 /* 1 if the buffer is locked */ 

define BH. Req 3 /* O if the buffer has been invalidated */ 

#define BH. Touched 4 /* 1 if the buffer has been touched (aging) */ 
define BH. Has aged 5 /* 1 if the buffer has been aged (aging) */ 
#define BH. Protected 6 /* 1 if the buffer is protected */ 

#define BH. FreeOnlO 7 /* 1 to discard the buffer head after IO */ 


struct buffer head { 
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/* First cache line: */ 

unsigned long b blocknr; /* block number */ 

kdev t b dev; /* device (B FREE = free) */ 

kdev t b rdev; /* Real device */ 

unsigned long b rsector; /* Real buffer location on disk */ 
struct buffer head *b next; /* Hash queue list */ 

struct buffer head *b this page; /* circular list of buffers in one 
page */ 

/* Second cache line: */ 

unsigned long b state; /* buffer state bitmap (above) */ 
struct buffer head *b next free; 

unsigned int b count; /* users using this block */ 
unsigned long b size; /* block size */ 

/* Non-performance-critical data follows. */ 

char *b data; /* pointer to data block */ 

unsigned int b list; /* List that this buffer appears */ 
unsigned long b flushtime; /* Time when this (dirty) buffer 
* should be written */ 

unsigned long b Iru time; /* Time when this buffer was 

* last used. */ 

struct wait queue *b wait; 

struct buffer head *b prev; /* doubly linked hash list */ 
struct buffer head *b prev free; /* doubly linked list of buffers */ 


struct buffer head *b reqnext; /* request queue */ 


160 of 212 04/21/2011 11:34 AM 





Linux Kernel 核 心中 文 手册 file:///media/7C88B4DC88B495DC/redbatzero/linux 内 核 图 ,.， 





14 


device 














系统 中 的 每 一 个 网 络 设备 都 用 一 个 device 数 据 结构 表示 





Z& Winclude/linux/netdevice.h 


struct device 

{ 

/* 

* This is the first field of the "visible" part of this structure 
* (i.e. as seen by users in the "Space.c" file). It is the name 
* the interface. 

*/ 

char *name; 

/* |/O specific fields */ 

unsigned long rmem, end; /* shmem "recv" end */ 
unsigned long rmem start; /* shmem "recv" start */ 
unsigned long mem end; /* shared mem end */ 

unsigned long mem. start; /* shared mem start */ 
unsigned long base addr; /* device I/O address */ 
unsigned char irq; /* device IRQ number */ 

/* Low-level status flags. */ 


volatile unsigned char start, /* start an operation */ 
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interrupt; /* interrupt arrived */ 

unsigned long tbusy; /* transmitter busy */ 

struct device *next; 

/* The device initialization function. Called only once. */ 

int (*init)(struct device *dev); 

/* Some hardware also needs these fields, but they are not part of 
the usual set specified in Space.c. */ 

unsigned char if port; /* Selectable AUI,TP, */ 

unsigned char dma; /* DMA channel */ 

struct enet_statistics* (*get stats)(struct device *dev); 

J'* 

* This marks the end of the "visible" part of the structure. All 

* fields hereafter are internal to the system, and may change at 
* will (read: may be cleaned up at will). 

*/ 

/* These may be needed for future network- power-down code. */ 
unsigned long trans start; /* Time (jiffies) of 

last transmit */ 

unsigned long last rx; /* Time of last Rx */ 

unsigned short flags; /* interface flags (BSD)*/ 

unsigned short family; /* address family ID */ 

unsigned short metric; /* routing metric */ 

unsigned short mtu; /* MTU value */ 


unsigned short type; /* hardware type */ 
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unsigned short hard header len; /* hardware hdr len */ 
void *priv; /* private data */ 

/* Interface address info. */ 

unsigned char broadcast[MAX ADDR LEN]; 

unsigned char pad; 

unsigned char dev addr[MAX ADDR LEN]; 

unsigned char addr_len; /* hardware addr len */ 
unsigned long pa addr; /* protocol address */ 
unsigned long pa brdaddr; /* protocol broadcast addr*/ 
unsigned long pa dstaddr; /* protocol P-P other addr*/ 
unsigned long pa mask; /* protocol netmask */ 
unsigned short pa alen; /* protocol address len */ 
struct dev mc list *mc list; /* M'cast mac addrs */ 
int mc. count; /* No installed mcasts */ 

struct ip mc list *ip mc list; /* IP m'cast filter chain */ 


u32 tx queue len; /* Max frames per queue */ 





/* For load balancing driver pair support */ 

unsigned long pkt. queue; /* Packets queued */ 

struct device *slave; /* Slave device */ 

struct net alias info *alias info; /* main dev alias info */ 
struct net alias *my. alias; /* alias devs */ 

/* Pointer to the interface buffers. */ 

struct sk buff head buffs[ DEV_NUMBUFFS]; 


/* Pointers to interface service routines. */ 
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int (*open)(struct device *dev); 

int (*stop)(struct device *dev); 

int (*hard start xmit) (struct sk buff *skb, 
struct device *dev); 

int (*hard header) (struct sk buff *skb, 
struct device *dev, 

unsigned short type, 

void *daddr, 

void *saddr, 

unsigned len); 

int (*rebuild header)(void *eth, 

struct device *dev, 

unsigned long raddr, 

struct sk buff *skb); 

void (*set multicast list)(struct device *dev); 
int (*set mac address)(struct device *dev, 
void *addr); 

int (*do ioctl)(struct device *dev, 

struct ifreq *ifr, 

int cmd); 

int (*set config)(struct device *dev, 

struct ifmap *map); 

void (*header cache bind)(struct hh cache **hhp, 


struct device *dev, 
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unsigned short htype, 

_ u32 daddr); 

void (*header_cache_update)(struct hh_cache *hh, 

struct device *dev, 

unsigned char * haddr); 

int (*change mtu)(struct device *dev, 

int new mtu); 

struct iw statistics* (*get wireless stats)(struct device *dev); 


hi 


device_struct 














device_struct 数 据 结 构 用 于 登记 字符 和 块 设备 〈 存 放 这 个 设备 的 名 称 和 可 能 进行 的 文件 
VE) 。Chrdevs 和 blkdevs 回 量 表 中 的 每 一 个 有 效 的 成 员 都 分 别 代 表 一 个 字符 或 块 设备 。 





T 
$ 








参见 fs/devices.c 


struct device_struct { 
const char * name; 
struct file operations * fops; 


14 


file 














手 一 个 打开 的 文件 、socket 等 等 都 用 一 个 file 数 据 结构 代表 





A 


22 Winclude/linux/fs.h 


S 
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struct file ( 

mode t f mode; 

loff t f pos; 

unsigned short f flags; 

unsigned short f. count; 

unsigned long f reada, f ramax, f raend, f ralen, f rawin; 
struct file *f next, *f prev; 

int f owner; /* pid or -pgrp where SIGIO should be sent */ 
struct inode * f inode; 

struct file operations * f op; 

unsigned long f version; 

void *private data; /* needed for tty driver, and maybe others */ 


jS 


file struct 





TT 





file_struct 数 据 结构 描述 了 一 个 进程 打开 的 文 伯 
参见 include/linux/sched.h 

struct files struct { 

int count; 

fd set close on exec; 

fd set open fds; 

struct file * fd[NR_OPEN]; 


rf 
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fs_struct 

Z& Winclude/linux/sched.h 
struct fs struct ( 

int count; 

unsigned short umask; 
struct inode * root, * pwd; 


}; 


gendisk 


























gendisk 数 据 结构 存放 人 硬盘 的 信息 。 用 在 初始 化 过 程 中 找到 磁盘 ， 探 测 分 区 的 时 候 








参见 include/linux/genhd.h 


struct hd_struct { 

long start_sect; 

long nr. sects; 

1j 

struct gendisk { 

int major; /* major number of driver */ 

const char *major name; /* name of major driver */ 
int minor shift; /* number of times minor is shifted to 
get real minor */ 


int max p; /* maximum partitions per device */ 
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int max nr; /* maximum number of real devices */ 
void (*init)(struct gendisk *); 

/* Initialization called before we 

do our thing */ 

struct hd struct *part; /* partition table */ 

int *sizes; /* device size in blocks, copied to 
blk_size[] */ 

int nr. real; /* number of real devices */ 

void *real devices; /* internal use */ 

struct gendisk *next; 


n 


inode 











VFS inode 数 据 结构 存放 磁盘 上 的 一 个 文件 或 目录 的 信息 





参见 include/linux/fs.h 


struct inode { 
kdev t i dev; 
unsigned long i ino; 
umode t i mode; 
nlink t i nlink; 
uid t i uid; 

gid ti gid; 


kdev t i rdev; 
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off t i size; 
time t i atime; 
time ti mtime; 
time t i ctime; 
unsigned long i. blksize; 
unsigned long i blocks; 
unsigned long i version; 
unsigned long i nrpages; 
struct semaphore i sem; 
struct inode operations *i op; 
struct super block *i sb; 
struct wait queue *i wait; 
struct file lock *i flock; 
struct vm area struct *i mmap; 
struct page *i pages; 
struct dquot *i dquot[MAXQUOTAS]; 
struct inode *i next, *i prev; 
struct inode *i hash next, *i hash prev; 


struct inode *i bound to, *i bound by; 





struct inode *i mount; 
unsigned short i count; 
unsigned short i flags; 
unsigned char i lock; 


unsigned char i dirt; 
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unsigned char i. pipe; 

unsigned char i sock; 

unsigned char i, seek; 

unsigned char i update; 

unsigned short i writecount; 

union { 
struct pipe inode info pipe i; 
struct minix inode info minix i; 
struct ext inode info ext i; 
struct ext2 inode info ext2 i; 
struct hpfs inode info hpfs i; 
struct msdos inode info msdos i; 
struct umsdos inode info umsdos_i; 
struct iso inode info isofs i; 
struct nfs inode info nfs i; 
struct xiafs inode info xiafs i; 
struct sysv inode info sysv. i; 
struct affs inode info affs i; 
struct ufs inode info ufs i; 
struct socket socket i; 


void *generic ip; 


170 of 212 04/21/2011 11:34 AM 








Linux Kernel 核 心中 文 手册 file: ///media/7C88B4DC88B495DC/redbatzero/linux A KA... 


ipc perm 
ipc_perm 数 据 结构 描述 一 个 系统 V IPC 对 象 的 访问 权限 


8 Winclude/linux/ipc.h 


struct ipc. perm 

{ 

key_t key; 

ushort uid; /* owner euid and egid */ 

ushort gid; 

ushort cuid; /* creator euid and egid */ 

ushort cgid; 

ushort mode; /* access modes see mode flags below */ 
ushort seq; /* sequence number */ 


js 


irqaction 





irqaction 数 据 结构 描述 系统 的 中 断 处 理 程序 


Z& Winclude/linux/interrupt.h 


struct irqaction { 

void (*handler)(int, void *, struct pt_regs *); 
unsigned long flags; 

unsigned long mask; 


const char *name; 
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void *dev id; 
struct irqaction *next; 


js 


linux binfmt 

















Linux 理 解 的 每 一 个 二 进 制 文件 格式 都 用 一 个 linux_binfmt 数 据 结构 表示 





Z& Winclude/linux/binfmt.h 


struct linux binfmt { 

struct linux binfmt * next; 

long *use count; 

int (*load binary)(struct linux binprm *, struct pt regs * regs); 
int (*load shlib)(int fd); 

int (*core dump)(long signr, struct pt regs * regs); 


f; 


mem_map_t 











mem_map_t 数 据 结 构 〈 也 叫做 page) 





于 存放 每 一 个 物理 内 存 页 的 信息 





Z& Winclude/linux/mm.h 


typedef struct page { 
/* these must be first (free area handling) */ 
struct page *next; 


struct page *prev; 
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struct inode *inode; 

unsigned long offset; 

struct page *next hash; 

atomic t count; 

unsigned flags; /* atomic flags, some possibly 
updated asynchronously */ 

unsigned dirty:16, 

age:8; 

struct wait queue *wait; 

struct page *prev hash; 

struct buffer head *buffers; 

unsigned long swap unlock entry; 

unsigned long map nr; /* page-»map nr == page - mem, map */ 


) mem map t; 


mm struct 














mm_struct 数 据 结 构 用 于 描述 一 个 任务 或 进程 的 虚拟 内 存 








参见 include/linux/sched.h 

struct mm struct { 

int count; 

pgd t * pgd; 

unsigned long context; 

unsigned long start code, end code, start data, end data; 


unsigned long start brk, brk, start stack, start mmap; 
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unsigned long arg start, arg end, env start, env end; 
unsigned long rss, total vm, locked vm; 

unsigned long def flags; 

struct vm area struct * mmap; 

struct vm area struct * mmap avl; 

struct semaphore mmap sem; 


fs 


pci bus 














系统 中 的 每 一 个 PCIl 总 线 用 一 个 pci_bus 数 据 结构 表示 





2 Winclude/linux/pci.h 

struct pci bus { 

struct pci bus *parent; /* parent bus this bridge is on */ 

struct pci bus *children; /* chain of P2P bridges on this bus */ 
struct pci bus *next; /* chain of all PCI buses */ 

struct pci dev *self; /* bridge device as seen by parent */ 
struct pci dev *devices; /* devices behind this bridge */ 

void *sysdata; /* hook for sys-specific extension */ 

unsigned char number; /* bus number */ 

unsigned char primary; /* number of primary bridge */ 

unsigned char secondary; /* number of secondary bridge */ 
unsigned char subordinate; /* max number of subordinate buses */ 


p 
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pci. dev 














系统 中 的 每 一 个 PCIl 设 备 ， 包 括 PCI-PCI 和 PCI-ISA 桥 设备 都 





一 个 pci_dev 数 据 结构 代表 


Z& Winclude/linux/pci.h 

/* 

* There is one pci dev structure for each slot- number/function- number 
* combination: 

*/ 

struct pci dev ( 

struct pci bus *bus; /* bus this device is on */ 

struct pci dev *sibling; /* next device on this bus */ 

struct pci dev *next; /* chain of all devices */ 

void *sysdata; /* hook for sys-specific extension */ 
unsigned int devfn; /* encoded device & function index */ 
unsigned short vendor; 

unsigned short device; 

unsigned int class; /* 3 bytes: (base,sub, prog-if) */ 
unsigned int master : 1; /* set if device is master capable */ 
/* 

* In theory, the irq level can be read from configuration 

* space and all would be fine. However, old PCI chips don't 
* support these registers and return O instead. For example, 
* the Vision864-P rev O chip can uses INTA, but returns O in 
* the interrupt line and pin registers. pci init() 


* initializes this field with the value at PCI INTERRUPT LINE 
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* and it is the job of pcibios fixup() to change it if 

* necessary. The field must not be O unless the device 
* cannot generate interrupts at all. 

*/ 

unsigned char irq; /* irq generated by this device */ 


js 


request 


request 用 于 向 系统 中 的 块 设备 发 出 请 求 。 请 求 都 是 从 /向 buffer cache 读 / 写 数据 块 














Z& Winclude/linux/blkdev.h 


struct request { 

volatile int rq status; 

#define RQ_INACTIVE (-1) 
#define RQ_ACTIVE 1 

#define RQ_SCSI_BUSY Oxffff 
#define RQ_SCSI_DONE Oxfffe 
#define RQ_SCSI_DISCONNECTING OxffeO 
kdev_t rq_dev; 

int cmd; /* READ or WRITE */ 
int errors; 

unsigned long sector; 

unsigned long nr_sectors; 


unsigned long current_nr_sectors; 
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char * buffer; 

struct semaphore * sem; 
struct buffer head * bh; 
struct buffer head * bhtail; 
struct request * next; 


js 


rtable 


每 一 个 rtable 数 据 结 构 都 存放 向 一 个 IP 主 机 发 送 报 文 的 路 由 的 信息 。Rtable 数 据 结 构 在 IP route 绥 
存 中 使 用 。 


参见 include/net/route.h 




















struct rtable 

{ 

struct rtable *rt_next; 
. u32 rt. dst; 

. Uu32 rt. src; 

. u32 rt gateway; 
atomic t rt refcnt; 
atomic t rt use; 
unsigned long rt. window; 
atomic t rt lastuse; 
struct hh. cache *rt. hh; 


struct device *rt dev; 
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unsigned short rt. flags; 
unsigned short rt mtu; 
unsigned short rt_irtt; 
unsigned char rt tos; 


E 


semaphore 


于 保护 重要 数据 结构 和 代码 区 域 。 











uir 





AT 





2j 


= 


include/asm/semaphore.h 


struct semaphore { 

int count; 

int waking; 

int lock ; /* to make waking testing atomic */ 
struct wait queue *wait; 


js 


Sk buff 








sk_buff 数 据 结构 当 网 络 数据 在 协议 层 之 间 移 动 的 过 程 中 描述 网 络 数据 。 


参见 include/linux/sk_buff.h 


struct sk buff 


{ 


struct sk_buff *next; /* Next buffer in list */ 
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struct sk buff *prev; /* Previous buffer in list */ 
struct sk buff head *list; /* List we are on */ 
int magic debug cookie; 
struct sk buff *link3; /* Link for IP protocol level buffer chains */ 
struct sock *sk; /* Socket we are owned by */ 
unsigned long when; /* used to compute rtt's */ 
struct timeval stamp; /* Time we arrived */ 
struct device *dev; /* Device we arrived on/are leaving by */ 
union 
{ 
struct tcphdr *th; 
struct ethhdr *eth; 
struct iphdr *iph; 
struct udphdr *uh; 
unsigned char *raw; 
/* for passing file handles in a unix domain socket */ 
void *filp; 
} h; 


union 


/* As yet incomplete physical layer views */ 
unsigned char *raw; 
struct ethhdr *ethernet; 


} mac; 
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struct iphdr *ip hdr; /* For IPPROTO RAW */ 
unsigned long len; /* Length of actual data */ 
unsigned long csum; /* Checksum */ 
. u32 saddr; /* IP source address */ 
__u32 daddr; /* IP target address */ 
__u32 raddr; /* IP next hop address */ 
. u32 seq; /* TCP sequence number */ 
. u32 end seq; /* seq [+ fin] [+ syn] + datalen */ 
. U32 ack seq; /* TCP ack sequence number */ 
unsigned char proto. priv[16]; 
volatile char acked, /* Are we acked ? */ 

used, /* Are we in use ? */ 

free, /* How to free this buffer */ 

arp; /* Has IP/ARP resolution finished */ 
unsigned char tries, /* Times tried */ 

lock, /* Are we locked ? */ 

localroute, /* Local routing asserted for this frame */ 

pkt type, /* Packet class */ 

pkt bridged, /* Tracker for bridging */ 

ip summed; /* Driver fed us an IP checksum */ 
#define PACKET HOST O /* To us */ 
#define PACKET BROADCAST 1 /* To all */ 
#define PACKET MULTICAST 2 /* To group */ 


define PACKET. OTHERHOST 3 /* To someone else */ 
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unsigned short users; /* User count - see datagram.c,tcp.c */ 
unsigned short protocol; /* Packet protocol from driver. */ 
unsigned int truesize; /* Buffer size */ 

atomic. t count; /* reference count */ 

struct sk buff *data skb; /* Link to the actual data skb */ 
unsigned char *head; /* Head of buffer */ 

unsigned char *data; /* Data head pointer */ 

unsigned char *tail; /* Tail pointer */ 

unsigned char *end; /* End pointer */ 

void (*destructor)(struct sk buff *); /* Destruct function */ 
. u16 redirport; /* Redirect port */ 


h 


Sock 





每 一 个 sock 数 据 结构 都 存放 一 个 BSD socket 中 和 协议 相关 的 信息 。 例 如 ， 对 于 一 个 INET 
socket， 这 个 数据 结构 会 存放 所 有 的 TCP/IP 和 UDP/YIP 相 关 的 信息 








参见 include/linux/net.h 


struct sock 

{ 

/* This must be first. */ 
struct sock *sklist next; 
struct sock *sklist prev; 


struct options *opt; 
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atomic_t wmem_alloc; 
atomic_t rmem_alloc; 
unsigned long allocation; /* Allocation mode */ 
. u32 write seq; 
. U32 sent seq; 
. U32 acked seq; 
__u32 copied seq; 
. Uu32 rcv ack seq; 
unsigned short rcv ack cnt; /* count of same ack */ 
. U32 window. seq; 
. u32 fin seq; 
_ u32 urg seq; 
. u32 urg data; 
. u32 syn seq; 
int users; /* user count */ 
Vág 
* Not all are volatile, but some are, so we 
* might as well say they all are. 
*/ 
volatile char dead, 
urginline, 
intr, 
blog, 


done, 
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reuse, 
keepopen, 
linger, 
delay acks, 
destroy, 
ack timed, 
no check, 
zapped, 
broadcast, 
nonagle, 
bsdism; 
unsigned long lingertime; 
int proc; 
struct sock *next; 
struct sock **pprev; 
struct sock *bind next; 
struct sock **bind pprev; 
struct sock *pair; 
int hashent; 
struct sock *prev; 
struct sk buff *volatile send head; 
struct sk buff *volatile send next; 
struct sk buff *volatile send tail; 


struct sk buff head back log; 
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struct sk buff *partial; 

struct timer list partial timer; 

long retransmits; 

struct sk buff head write queue, 

receive queue; 

struct proto *prot; 

struct wait queue **sleep; 

... u32 daddr; 

__u32 saddr; /* Sending source */ 

. u32 rcv saddr; /* Bound address */ 

unsigned short max unacked; 

unsigned short window; 

__u32 lastwin seq; /* sequence number when we last 
updated the window we offer */ 

. u32 high seq; /* sequence number when we did 
current fast retransmit */ 

volatile unsigned long ato; /* ack timeout */ 

volatile unsigned long Ircvtime; /* jiffies at last data rcv */ 

volatile unsigned long idletime; /* jiffies at last rcv */ 

unsigned int bytes rcv; 

/* 

* mss is min(mtu, max_window) 

TA 


unsigned short mtu; /* mss negotiated in the syn's */ 
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volatile unsigned short mss; /* current eff. mss - can change */ 
volatile unsigned short user mss; /* mss requested by user in ioctl */ 
volatile unsigned short max window; 

unsigned long window clamp; 

unsigned int ssthresh; 

unsigned short num; 

volatile unsigned short cong window; 

volatile unsigned short cong. count; 

volatile unsigned short packets out; 

volatile unsigned short shutdown; 

volatile unsigned long rtt; 

volatile unsigned long mdev; 

volatile unsigned long rto; 

volatile unsigned short backoff; 

int err, err soft; /* Soft holds errors that don't 
cause failure but are the cause 

of a persistent failure not 

just 'timed out' */ 

unsigned char protocol; 

volatile unsigned char state; 

unsigned char ack backlog; 

unsigned char max ack backlog; 

unsigned char priority; 


unsigned char debug; 
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int rcvbuf; 

int sndbuf; 

unsigned short type; 

unsigned char localroute; /* Route locally only */ 

Le 

* This is where all the private (optional) areas that don't 
* overlap will eventually live. 

*/ 

union 

{ 

struct unix opt af unix; 

#if defined(CONFIG_ATALK) || defined(CONFIG ATALK MODULE) 
struct atalk sock af at; 

#endif 

#if defined(CONFIG_IPX) || defined(CONFIG_IPX_MODULE) 
struct ipx opt af ipx; 

#endif 

#ifdef CONFIG_INET 

struct inet_packet_opt af_packet; 

#ifdef CONFIG_NUTCP 

struct tcp opt af tcp; 

#endif 

#endif 


} protinfo; 
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/* 

* |P 'private area' 

*/ 

int ip_ttl; /* TTL setting */ 

int ip tos; /* TOS */ 

struct tcphdr dummy th; 

struct timer list keepalive timer; /* TCP keepalive hack */ 
struct timer list retransmit timer; /* TCP retransmit timer */ 
struct timer list delack timer; /* TCP delayed ack timer */ 
int ip xmit timeout; /* Why the timeout is running, */ 
struct rtable *ip route cache; /* Cached output route */ 
unsigned char ip hdrincl; /* Include headers ? */ 

#ifdef CONFIG. IP. MULTICAST 

int ip mc ttl; /* Multicasting TTL */ 

int ip mc. loop; /* Loopback */ 

char ip mc name[MAX ADDR LEN]; /* Multicast device name */ 
struct ip mc, socklist *ip mc list; /* Group array */ 
#endif 

/* 

* This part is used for the timeout functions (timer.c). 

*/ 

int timeout; /* What are we waiting for? */ 

struct timer list timer; /* This is the TIME WAIT/receive 


* timer when we are doing IP 
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T, 

struct timeval stamp; 

/* 

* |dentd 

TA 

struct socket *socket; 

/* 

* Callbacks 

T 

void (*state change)(struct sock *sk); 
void (*data ready)(struct sock *sk,int bytes); 
void (*write space)(struct sock *sk); 
void (*error_report)(struct sock *sk); 


rs 


socket 


每 一 个 socket 数 据 结构 都 存放 一 个 BSD socket 的 信息 。 它 不 会 独立 存在 ， 实 际 上 是 VFS inodeX 
据 结构 的 一 部 分 


8 Winclude/linux/net.h 





struct socket { 
short type; /* SOCK STREAM, ... */ 


Socket state state; 
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long flags; 

struct proto_ops *ops; /* protocols do most everything */ 

void *data; /* protocol data */ 

struct socket *conn; /* server socket connected to */ 

struct socket *iconn; /* incomplete client conn.s */ 

struct socket *next; 

struct wait queue * *wait; /* ptr to place to wait on */ 

struct inode *inode; 

struct fasync, struct *fasync list; /* Asynchronous wake up list */ 
struct file *file; /* File back pointer for gc */ 


n 


task struct 








每 一 个 task_struct 描 述 系 统 中 的 一 个 任务 或 进程 





S 


Z Winclude/linux/sched.h 

struct task struct ( 

/* these are hardcoded - don't touch */ 

volatile long state; /* -1 unrunnable, O runnable, >O stopped */ 
long counter; 

long priority; 

unsigned long signal; 

unsigned long blocked; /* bitmap of masked signals */ 
unsigned long flags; /* per process flags, defined below */ 


int errno; 
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long debugreg[8]; /* Hardware debugging registers */ 
struct exec domain *exec domain; 

/* various fields */ 

struct linux binfmt *binfmt; 

struct task struct *next task, *prev task; 

struct task struct *next run, *prev run; 

unsigned long saved kernel stack; 

unsigned long kernel stack page; 

int exit code, exit signal; 

/* 2??? */ 

unsigned long personality; 

int dumpable: 1; 

int did exec:1; 

int pid; 

int pgrp; 

int tty old pgrp; 

int session; 

/* boolean value for session group leader */ 

int leader; 

int groups[ NGROUPS]; 

/* 

* pointers to (original) parent process, youngest child, younger sibling, 
* older sibling, respectively. (p->father can be replaced with 


* p-»p pptr- >pid) 
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struct task struct *p opptr, *p pptr, *p cptr, 

*p ysptr, *p osptr; 

struct wait queue *wait_chldexit; 

unsigned short uid, euid, suid, fsuid; 

unsigned short gid, egid, sgid,fsgid; 

unsigned long timeout, policy, rt_priority; 

unsigned long it_real_value, it_prof_value, it_virt_value; 
unsigned long it_real_incr, it_prof_incr, it_virt_incr; 

struct timer_list real_timer; 

long utime, stime, cutime, cstime, start_time; 

/* mm fault and swap info: this can arguably be seen as either 
mm-specific or thread-specific */ 

unsigned long min flt, maj flt, nswap, cmin flt, cmaj flt, cnswap; 
int swappable:1; 

unsigned long swap address; 

unsigned long old maj flt; /* old value of maj flt */ 

unsigned long dec flt; /* page fault count of the last time */ 
unsigned long swap cnt; /* number of pages to swap on next pass */ 
/* limits */ 

struct rlimit rlim[RLIM NLIMITS]; 

unsigned short used math; 

char comm[16]; 


/* file system info */ 
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int link count; 

struct tty struct *tty; /* NULL if no tty */ 
/* ipc stuff */ 

struct sem undo *semundo; 

struct sem queue *semsleeping; 

/* Idt for this task - used by Wine. If NULL, default ldt is used */ 
struct desc struct *ldt; 

/* tss for this task */ 

struct thread struct tss; 

/* filesystem information */ 

struct fs struct *fs; 

/* open file information */ 

struct files struct *files; 

/* memory management info */ 
struct mm struct *mm; 

/* signal handlers */ 

struct signal struct *sig; 

#ifdef _ SMP . 

int processor; 

int last processor; 

int lock depth; /* Lock depth. 

We can context switch in and out 

of holding a syscall kernel lock... */ 


#endif 
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14 


timer list 














timer_list 数 据 结 构 用 于 实现 进程 的 实时 计时 器 。 





参见 include/linux/timer.h 


struct timer_list { 

struct timer_list *next; 

struct timer list *prev; 
unsigned long expires; 
unsigned long data; 

void (*function)(unsigned long); 


ie 


tq_struct 





每 一 个 任务 队列 Ctq struc) 数据 结构 都 存放 正在 排队 的 工作 的 信息 。 通 常 是 一 个 设备 张 动 程 
序 需 要 的 任务 ， 但 是 不 需要 立即 完成 。 

















参见 include/linux/tqueue.h 


struct tq struct { 

struct tq struct *next; /* linked list of active bh's */ 
int sync; /* must be initialized to zero */ 

void (*routine)(void *); /* function to call */ 

void *data; /* argument to function */ 


js 
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vm area struct 





每 一 个 vm_area_struct 数 据 结构 描述 一 个 进程 的 一 个 虚拟 内 存 区 


参见 include/linux/mm.h 


struct vm area struct { 

struct mm struct * vm mm; /* VM area parameters */ 
unsigned long vm start; 

unsigned long vm end; 

pgprot t vm, page prot; 

unsigned short vm flags; 

/* AVL tree of VM areas per task, sorted by address */ 
short vm avl height; 

struct vm area struct * vm avl left; 

struct vm area struct * vm avl right; 

/* linked list of VM areas per task, sorted by address */ 
struct vm area struct * vm next; 

/* for areas with inode, the circular list inode-»i mmap */ 
/* for shm areas, the circular list of attaches */ 

/* otherwise unused */ 

struct vm area struct * vm next share; 

struct vm area struct * vm prev share; 


/* more */ 
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struct vm operations struct * vm. ops; 
unsigned long vm offset; 

struct inode * vm inode; 

unsigned long vm pte; /* shared mem */ 


E 


Append B (KKB) 


The Alpha AXP Processor 


Alpha AXP 体 系 结构 是 一 个 为 了 速度 而 设计 的 64 位 的 加 载 /存储 (load/store〉RISC 体 系 结构 。 所 
有 的 寄存 器 都 是 64 位 长 的 ; 32 个 整数 寄存 器 和 32 个 浮 点 寄存 器 。 第 31 个 整数 寄存 器 和 第 31 个 
浮 点 寄存 器 用 于 null 操 作 : 读 取 它们 得 到 0， 写 向 它们 没有 任何 结果 。 所 有 的 指令 和 内 存 操作 
(不 管 是 读 或 写 ) 都 是 32 位 。 只 要 具体 的 实现 遵循 这 种 体系 结构 ， 人 允许 不 同 的 实现 方式 。 


没有 直接 在 内 存 中 操作 数值 的 指令 ; 所 有 的 数据 操作 都 是 在 寄存 器 之 间 进 行 。 所 以 ， 如 果 你 希 
望 增加 内 存 中 一 个 计数 器 ， 你 必须 首先 把 它 读 到 一 个 积存 其 中 ， 修 改 之 后 再 写 回 去 。 上 只 有 通过 
一 个 指令 写 向 一 个 寄存 器 或 内 存 位 置 ， 而 刃 一 个 读 取 这 个 寄存 器 或 内 存 位 置 ， 指 令 之 间 才 能 过 
HEH. Alpha AXP 的 一 个 有 趣 的 特点 是 它 有 可 以 产生 标志 位 的 指令 ， 比 如 测试 两 个 整数 是 否 
相等 ， 这 个 结构 不 是 存放 到 处 理 器 的 一 个 状态 寄存 器 ， 而 是 存放 到 第 三 个 寄存 器 。 初 看 上 去 比 
较 奇 怪 ， 但 是 不 依赖 于 状态 寄存 器 意味 着 可 以 更 容易 地 让 这 个 CPU 每 一 个 循环 执行 多 个 指令 。 
执行 过 程 中 使 用 无 关 的 寄存 器 的 指令 不 需要 互相 等 待 ， 如 果 只 有 一 个 状态 寄存 器 则 必须 等 待 。 
没有 对 于 内 存 的 直接 操作 以 及 数目 众多 的 寄存 器 对 于 同时 多 条 指令 也 有 帮助 。 


































































































Alpha AXP 体 系 结构 使 用 一 系列 子 例 程 ， 叫 做 体系 结构 的 授权 库 代 码 (privileged architecture 
library code PALcode) 。PALcode 和 操作 系统 、Alpha AXP 体 系 的 CPU 具 体 实现 和 系统 硬件 相 
关 。 这 些 子 例 程 向 操作 系统 提供 上 下 文 切换 、 中 断 、 异 常 和 内 存 管理 的 基本 支持 。 这 些 子 例 程 
可 以 被 硬件 调用 或 通过 CALL_PAL 指 令 调用 。PALcode 用 标准 的 Alpha AXP 汇 编程 序 编写 ， 带 有 

些 特殊 扩展 的 实现 ， 用 于 提供 直接 访问 低级 硬件 的 功能 ， 例 如 内 部 处 理 器 的 寄存 器 。PALcode 
在 PAL 模 式 运 行 ， 这 是 一 个 特权 的 模式 ， 会 停止 一 些 系统 事件 的 发 上 ， 并 允许 PALcode 完 全 控制 
系统 的 物理 硬件 。 
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Appendix C〔 附 录 C) 











Useful Web and FTP Sites (有 用 的 web 和 ftp 站 点 ) 





http: //www.azstarnet.com/~axplinux This is David Mosberger-Tang's Alpha 
AXP Linux web site and it is the place to go for all of the Alpha AXP HOW- 
TOs. It also has a large number of pointers to Linux and Alpha AXP specific 
information such as CPU data sheets. 

http: //www.redhat.com/ Red Hat's web site. This has a lot of useful pointers. 
ftp: //sunsite.unc.edu This is the major site for a lot of free software. The Linux 
specfic software is held in pub/Linux. 

http://www. intel.com Intel's web site and a good place to look for Intel chip 
information. 

http: //www.ssc.com/lj/index.html The Linux Journal is a very good Linux 
magazine and well worth the yearly subscription for its excellent articles. 

http: //www.blackdown.org/java-linux.html This is the primary site for infor- 
mation on Java on Linux. 

ftp://tsx- 11.mit.edu/ ~ftp/pub/linux MIT's Linux ftp site. 

ftp: //ftp.cs. helsinki.fi/pub/Software/Linux/Kernel Linus's kernel sources. 
http://www. linux. org.uk The UK Linux User Group. 

http: //sunsite.unc.edu/mdw/linux. html Home page for the Linux Documen- 
tation Project, 

http: //www.digital.com Digital Equipment Corporation's main web page. 


http: //altavista. digital.com DIGITAL's Altavista search engine. A very good 
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place to search for information within the web and news groups. 

http: //www.linuxhq.com The Linux HQ web site holds up to date offical and 
unoffical patches as well as advice and web pointers that help you get the best 
set of kernel sources possible for your system. 

http: //www.amd.com The AMD web site. 


http: //www.cyrix.com Cyrix' s web site. 


Appendix D( 附 录 D) 

The GNU General Public 

License 

Printed below is the GNU General Public License (the GPL or copyleft)，under 
which Linux is licensed. It is reproduced here to clear up some of the confusion 
about Linux' s copyright status|Linux is not shareware, and it is not in the public 
domain. The bulk of the Linux kernel is copyright c 1993 by Linus Torvalds, and 
other software and parts of the kernel are copyrighted by their authors. Thus, Linux 
is copyrighted, however, you may redistribute it under the terms of the GPL printed 
below. 

GNU GENERAL PUBLIC LICENSE 

Version 2, June 1991 

Copyright (C) 1989, 1991 Free Software Foundation, Inc. 675 Mass Ave, Cambridge, 
MA 02139, USA Everyone is permitted to copy and distribute verbatim copies of 


this license document, but changing it is not allowed. 
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D.1 Preamble 

The licenses for most software are designed to take away your freedom to share and 
change it. By contrast, the GNU General Public License is intended to guarantee 
your freedom to share and change free software(to make sure the software is free 
for all its users. This General Public License applies to most of the Free Software 
Foundation's software and to any other program whose authors commit to using 

it. (Some other Free Software Foundation software is covered by the GNU Library 
General Public License instead.) You can apply it to your programs, too. 

When we speak of free software, we are referring to freedom, not price. Our General 
Public Licenses are designed to make sure that you have the freedom to distribute 
copies of free software (and charge for this service if you wish), that you receive 
Source code or can get it if you want it, that you can change the software or use 
pieces of it in new free programs; and that you know you can do these things. 

To protect your rights, we need to make restrictions that forbid anyone to deny 

you these rights or to ask you to surrender the rights. These restrictions translate 
to certain responsibilities for you if you distribute copies of the software, or if you 
modify it. 

For example, if you distribute copies of such a program, whether gratis or for a fee, 
you must give the recipients all the rights that you have. You must make sure that 
they, too, receive or can get the source code. And you must show them these terms 
so they know their rights. 

We protect your rights with two steps: (1) copyright the software, and (2) offer you 
this license which gives you legal permission to copy, distribute and/or modify the 


software. 
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Also, for each author's protection and ours, we want to make certain that everyone 
understands that there is no warranty for this free software. If the software is modified 
by someone else and passed on, we want its recipients to know that what they have 

is not the original, so that any problems introduced by others will not re ect on the 
original authors' reputations. 

Finally, any free program is threatened constantly by software patents. We wish to 
avoid the danger that redistributors of a free program will individually obtain patent 


licenses, in e 
ect making the program proprietary. To prevent this, we have made it 


clear that any patent must be licensed for everyone's free use or not licensed at all. 
The precise terms and conditions for copying, distribution and modification follow. 
D.2 Terms and Conditions for Copying, Distribu- 


tion, and Modification O. This License applies to any program or other work which contains a 
notice 


placed by the copyright holder saying it may be distributed under the terms of 
this General Public License. The NProgram", below, refers to any such program 
or work, and a Nwork based on the Program" means either the Program or 

any derivative work under copyright law: that is to say, a work containing 

the Program or a portion of it, either verbatim or with modifications and/or 
translated into another language. (Hereinafter, translation is included without 
limitation in the term \modification".) Each licensee is addressed as Vou". 
Activities other than copying, distribution and modification are not covered 

by this License; they are outside its scope. The act of running the Program is 
not restricted, and the output from the Program is covered only if its contents 


constitute a work based on the Program (independent ofhaving been made by 
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running the Program). Whether that is true depends on what the Program 
does. 

1. You may copy and distribute verbatim copies of the Program's source code 
as you receive it, in any medium, provided that you conspicuously and appro- 
priately publish on each copy an appropriate copyright notice and disclaimer 
of warranty; keep intact all the notices that refer to this License and to the 
absence of any warranty; and give any other recipients of the Program a copy 
of this License along with the Program. 

You may charge a fee for the physical act of transferring a copy, and you may 
at your option offer warranty protection in exchange for a fee. 

2. You may modify your copy or copies of the Program or any portion of it, 
thus forming a work based on the Program, and copy and distribute such 
modifications or work under the terms of Section 1 above, provided that you 
also meet all of these conditions: 

a. You must cause the modified files to carry prominent notices stating that 
you changed the files and the date of any change. 

b. You must cause any work that you distribute or publish, that in whole or 
in part contains or is derived from the Program or any part thereof, to 

be licensed as a whole at no charge to all third parties under the terms of 
this License. 

c. If the modified program normally reads commands interactively when run, 
you must cause it, when started running for such interactive use in the 

most ordinary way, to print or display an announcement including an 


appropriate copyright notice and a notice that there is no warranty (or 
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else, saying that you provide a warranty) and that users may redistribute 

the program under these conditions, and telling the user how to view a 

copy of this License. (Exception: if the Program itself is interactive but 

does not normally print such an announcement, your work based on the 
Program is not required to print an announcement.) 

These requirements apply to the modified work as a whole. If identifiable 
sections of that work are not derived from the Program, and can be reasonably 
considered independent and separate works in themselves, then this License, 
and its terms, do not apply to those sections when you distribute them as 
separate works. But when you distribute the same sections as part of a whole 
which is a work based on the Program, the distribution of the whole must be 
on the terms of this License, whose permissions for other licensees extend to 
the entire whole, and thus to each and every part regardless of who wrote it. 
Thus, it is not the intent of this section to claim rights or contest your rights 
to work written entirely by you; rather, the intent is to exercise the right to 
control the distribution of derivative or collective works based on the Program. 
In addition, mere aggregation of another work not based on the Program with 
the Program (or with a work based on the Program) on a volume of a storage 
or distribution medium does not bring the other work under the scope of this 
License. 

3. You may copy and distribute the Program (or a work based on it, under Section 
2) in object code or executable form under the terms of Sections 1 and 2 above 
provided that you also do one of the following: 


a. Accompany it with the complete corresponding machine-readable source 
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code, which must be distributed under the terms of Sections 1 and 2 above 

on a medium customarily used for software interchange; or, 

b. Accompany it with a written offer, valid for at least three years, to give any 
third party, for a charge no more than your cost of physically performing 

source distribution, a complete machine-readable copy of the correspond- 

ing source code, to be distributed under the terms of Sections 1 and 2 

above on a medium customarily used for software interchange; or, 

c. Accompany it with the information you received as to the offer to dis- 

tribute corresponding source code. (This alternative isallowed only for 
noncommercial distribution and only if you received the program in object 

code or executable form with such an offer, in accord with Subsection b above.) 
The source code for a work means the preferred form of the work for making 
modifications to it. For an executable work, complete source code means all 

the source code for all modules it contains, plus any associated interface defi- 
nition files, plus the scripts used to control compilation and installation of the 
executable. However, as a special exception, the source code distributed need 
not include anything that is normally distributed (in either source or binary 

form) with the major components (compiler, kernel, and so on) of the operating 
system on which the executable runs, unless that component itself accompanies 
the executable. 

If distribution of executable or object code is made by offering access to copy 
from a designated place, then offering equivalent access to copy the source code 
from the same place counts as distribution of the source code, even though third 


parties are not compelled to copy the source along with the object code. 
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4. You may not copy, modify, sublicense, or distribute the Program except as 
expressly provided under this License. Any attempt otherwise to copy, modify, 
sublicense or distribute the Program is void, and will automatically terminate 
your rights under this License. However, parties who have received copies, or 
rights, from you under this License will not have their licenses terminated so 
long as such parties remain in full compliance. 

5. You are not required to accept this License, since you have not signed it. How- 
ever, nothing else grants you permission to modify or distribute the Program 

or its derivative works. These actions are prohibited by law ifyou do not ac- 
cept this License. Therefore, by modifying or distributing the Program (or any 
work based on the Program), you indicate your acceptance of this License to 
do so, and all its terms and conditions for copying, distributing or modifying 
the Program or works based on it. 

6. Each time you redistribute the Program (or any work based on the Program), 
the recipient automatically receives a license from the original licensor to copy, 
distribute or modify the Program subject to these terms and conditions. You 
may not impose any further restrictions on the recipients' exercise of the rights 
granted herein. You are not responsible for enforcing compliance by third 
parties to this License. 

7. |f, as a consequence of a court judgment or allegation of patent infringement 
or for any other reason (not limited to patent issues), conditions are imposed 
on you (whether by court order, agreement or otherwise) that contradict the 
conditions of this License, they do not excuse you from the conditions of this 


License. If you cannot distribute so as to satisfy simultaneously your obligations 
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under this License and any other pertinent obligations, then as a consequence 
you may not distribute the Program at all. For example, if a patent license 
would not permit royalty-free redistribution of the Program by all those who 
receive copies directly or indirectly through you, then the only way you could 
satisfy both it and this License would be to refrain entirely from distribution 

of the Program. 

If any portion of this section is held invalid or unenforceable under any par- 
ticular circumstance, the balance of the section is intended to apply and the 
section as a whole is intended to apply in other circumstances. 

It is not the purpose of this section to induce you to infringe any patents or 
other property right claims or to contest validity ofany such claims; this section 
has the sole purpose of protecting the integrity of the free software distribution 
system, which isimplemented by public license practices. Many people have 
made generous contributions to the wide range of software distributed through 
that system in reliance on consistent application of that system; it is up to the 
author/donor to decide if he or she is willing to distribute software through 

any other system and a licensee cannot impose that choice. 

This section is intended to make thoroughly clear what is believed to be a 
consequence of the rest of this License. 

8. If the distribution and/or use of the Program is restricted in certain countries 
either by patents or by copyrighted interfaces, the original copyright holder 

who places the Program under this License may add an explicit geographical 
distribution limitation excluding those countries, so that distribution is permit- 


ted only in or among countries not thus excluded. In such case, this License 
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incorporates the limitation as if written in the body of this License. 

9. The Free Software Foundation may publish revised and/or new versions of the 
General Public License from time to time. Such new versions will be similar in 
spirit to the present version, but may differ in detail to address new problems 
or concerns. 

Each version is given a distinguishing version number. If the Program specifies 
a version number of this License which applies to it and Nany later version", you 
have the option of following the terms and conditions either of that version or 

of any later version published by the Free Software Foundation. If the Program 
does not specify a version number of this License, you may choose any version 
ever published by the Free Software Foundation. 

10. If you wish to incorporate parts of the Program into other free programs whose 
distribution conditions are different, write to the author to ask for permission. 
For software which is copyrighted by the Free Software Foundation, write to the 
Free Software Foundation; we sometimes make exceptions for this. Our decision 
will be guided by the two goals of preserving the free status of all derivatives of 
our free software and of promoting the sharing and reuse of software generally. 
NO WARRANTY 

11. BECAUSE THE PROGRAM IS LICENSED FREE OF CHARGE, THERE 

IS NO WARRANTY FOR THE PROGRAM, TO THE EXTENT PERMIT- 

TED BY APPLICABLE LAW. EXCEPT WHEN OTHERWISE STATED 

IN WRITING THE COPYRIGHT HOLDERS AND/OR OTHER PARTIES 

PROVIDE THE PROGRAM MAS IS" WITHOUT WARRANTY OF ANY 


KIND, EITHER EXPRESSED OR IMPLIED, INCLUDING, BUT NOT LIM- 
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ITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND 
FITNESS FOR A PARTICULAR PURPOSE. THE ENTIRE RISK AS TO 

THE QUALITY AND PERFORMANCE OF THE PROGRAM IS WITH 

YOU. SHOULD THE PROGRAM PROVE DEFECTIVE, YOU ASSUME 

THE COST OF ALL NECESSARY SERVICING, REPAIR OR CORREC- 

TION. 

12. IN NO EVENT UNLESS REQUIRED BY APPLICABLE LAWOR AGREED 
TO IN WRITING WILL ANY COPYRIGHT HOLDER, OR ANY OTHER 

PARTY WHO MAY MODIFY AND/OR REDISTRIBUTE THE PROGRAM 

AS PERMITTED ABOVE, BE LIABLE TO YOU FOR DAMAGES, IN- 
CLUDING ANY GENERAL, SPECIAL, INCIDENTAL OR CONSEQUEN- 

TIAL DAMAGES ARISING OUT OF THE USE OR INABILITY TO USE 

THE PROGRAM (INCLUDING BUT NOT LIMITED TO LOSS OF DATA 

OR DATA BEING RENDERED INACCURATE OR LOSSES SUSTAINED 

BY YOU OR THIRD PARTIES OR A FAILURE OF THE PROGRAM TO 
OPERATE WITH ANY OTHER PROGRAMS), EVEN IF SUCH HOLDER 

OR OTHER PARTY HAS BEEN ADVISED OF THE POSSIBILITY OF 

SUCH DAMAGES. 

END OF TERMS AND CONDITIONS 

D.3 Appendix: How to Apply These Terms to Your 

New Programs 

If you develop a new program, and you want it to be of the greatest possible use to 
the public, the best way toachieve this is to make itfree software which everyone 


can redistribute and change under these terms. 
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To do so, attach the following notices to the program. It is safest to attach them 
to the start of each source file to most effectively convey the exclusion of warranty; 
and each file should have at least the Ncopyright" line and a pointer to where the full 
notice is found. 

hone line to give the program's name and a brief idea of what it does.i 

Copyright c 19yy hname of authori 

This program is free software; you can redistribute it and/or modify it 

under the terms of the GNU General Public License as published by the 

Free Software Foundation; either version 2 of the License, or (at your 

option) any later version. 

This program is distributed in the hope that it will be useful, but WITH- 

OUT ANY WARRANTY; without even the implied warranty of MER- 

CHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See 

the GNU General Public License for more details. 

You should have received a copy of the GNU General Public License along 

with this program; if not, write to the Free Software Foundation, Inc., 

675 Mass Ave, Cambridge, MA 02139, USA. 

Also add information on how to contact you by electronic and paper mail. 

If the program is interactive, make it output a short notice like this when it starts 
in an interactive mode: 

Gnomovision version 69, Copyright (C) 19yy name of author Gnomovision 

comes with ABSOLUTELY NO WARRANTY; for details type “show w'. This 

is free software, and you are welcome to redistribute it under certain 


conditions; type "show c' for details. 
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The hypothetical commands “show w' and “show c' should show the appropriate 
parts of the General Public License. Of course, the commands you use may be called 
something other than “show w' and “show c'; they could even be mouse-clicks or 
menu items{whatever suits your program. 

You should also get your employer (if you work as a programmer) or your school, if 
any, to sign a \copyright disclaimer" for the program, if necessary. Here is a sample; 
alter the names: 

Yoyodyne, Inc., hereby disclaims all copyright interest in the program 

"Gnomovision' (which makes passes at compilers) written by James Hacker. 
hsignature of Ty Cooni, 1 April 1989 Ty Coon, President of Vice 

This General Public License does not permit incorporating your program into pro- 
prietary programs. If your program is a subroutine library, you may consider it more 
useful to permit linking proprietary applications with the library. If this is what you 


want to do, use the GNU Library General Public License instead of this License. 


Glossary (名 词 表 ) 

Argument Functions and routines are passed arguments to process. 

ARP Address Resolution Protocol. Used to translate IP addresses into physical 
hardware addresses. 

Ascii American Standard Code for Information Interchange. Each letter of the 
alphabet is represented by an 8 bit code. Ascii is most often used to store 
written characters. 


Bit A single bit of data that represents either 1 or O (on or off). 


208 of 212 04/21/2011 11:34 AM 





Linux Kernel 核 心中 文 手册 file:///media/7C88B4DC88B495DC/redbatzero/linux 内 核 图 ,.， 


Bottom Half Handler Handlers for work queued within the kernel. 

Byte 8 bits of data, 

C A high level programming language. Most of the Linux kernel is written in C. 
CPU Central Processing Unit. The main engine of the computer, see also micro- 
processor and processor. 

Data Structure This is a set of data in memory comprised of fields, 

Device Driver The software controlling a particular device, for example the NCR 
810 device driver controls the NCR 810 SCSI device. 

DMA Direct Memory Access. 

ELF Executable and Linkable Format. This object file format designed by the Unix 
System Laboratories is now firmly established as the most commonly used 
format in Linux. 

EIDE Extended IDE. 

Executable image A structured file containing machine instructions and data. 
This file can be loaded into a process's virtual memory and executed. See 

also program. 

Function A piece of software that performs an action. For example, returning the 
bigger of two numbers. 

IDE Integrated Disk Electronics. 

Image See executable image. 

IP Internet Protocol. 

IPC Interprocess Communiction. 

Interface A standard way of calling routines and passing data structures. For 


example, the interface between two layers of code might be expressed in terms 
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of routines that pass and return a particular data structure. Linux's VFS is a 
good example of an interface. 

IRQ Interrupt Request Queue. 

ISA Industry Standard Architecture. This is a standard, although now rather dated, 
data bus interface for system components such as oppy disk drivers. 

Kernel Module A dynamically loaded kernel function such as a filesystem or a 
device driver. 

Kilobyte A thousand bytes of data, often written as Kbyte, 

Megabyte A million bytes of data, often written as Mbyte, 

Microprocessor A very integrated CPU. Most modern CPUs are Microprocessors. 
Module A file containing CPU instructions in the form of either assembly language 
instructions or a high level language like C. 

Object file A fille containing machine code and data that has not yet been linked 
with other object files or libraries to become an executable image. 

Page Physical memory is divided up into equal sized pages. 

Pointer A location in memory that contains the address of another location in 
memory, 

Process This is an entity which can execute programs. A process could be thought 
of as a program in action. 

Processor Short for Microprocessor, equivalent toCPU. 

PCI Peripheral Component Interconnect. A standard describing how the peripheral 
components of a computer system may be connected together. 

Peripheral An intelligent processor that does work on behalf of the system's CPU. 


For example, an IDE controller chip, 
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Program A coherent set of CPU instructions that performs a task, such as printing 
\hello world". See also executable image. 

Protocol A protocol is a networking language used to transfer application data 
between two cooperating processes or network layers. 

Register A location within a chip, used to store information or instructions. 
Routine Similar to a function except that, strictly speaking, routines do not return 
values. 

SCSI Small Computer Systems Interface. 

Shell This is a program which acts as an interface between the operating system 
and a human user. Also called a command shell, the most commonly used shell 
in Linux is the bash shell. 

SMP Symmetrical multiprocessing. Systems with more than one processor which 
fairly share the work amongst those processors. 

Socket A socket represents one end of a network connection, Linux supports the 
BSD Socket interface. 

Software CPU instructions (both assembler and high level languages like C) and 
data. Mostly interchangable with Program. 

System V A variant ofUnix 

TM 

produced in 1983, which included, amongst other 

things, System V IPC mechanisms. 

TCP Transmission Control Protocol. 

Task Queue A mechanism for deferring work in the Linux kernel. 


UDP User Datagram Protocol. 
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Virtual memory A hardware and software mechanism for making the physical 


memory in a system appear larger than it actually is. 
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